MATERIAL  DIDÁCTICO 

MATEMÁTICAS 


MÉTODOS 
DE  ANÁLISIS 
DE  DATOS:  APUNTES 


Zenaida  Hernández  Martín 


yV  iberus 

CAMPUS  DE  EXCELENCIA  INTERNACIONAL 


UNIVERSIDAD 
DE  LA  RIOJA 


MÉTODOS  DE  ANÁLISIS  DE  DATOS 

(APUNTES) 


MATERIAL  DIDACTICO 

Matemáticas 
n°  6 


Zenaida  Hernández  Martín 


MÉTODOS  DE  ANÁLISIS  DE  DATOS 

(APUNTES) 


UNIVERSIDAD  DE  LA  RIO  JA 

Servicio  de  Publicaciones 
2012 


Hernández  Martín,  Zenaida 

Métodos  de  análisis  de  datos  :  apuntes  /  Zenaida  Hernández  Martín.  - 
Logroño  :  Universidad  de  La  Rioja,  Servicio  de  Publicaciones,  2012. 

172  p.  ;  29  cm.  (Material  Didáctico.  Matemáticas  ;  6) 

ISBN  978-84-615-7579-4 

1.  Métodos  estadísticos.  I.  Universidad  de  La  Rioja.  Servicio  de  Publicaciones,  ed. 
519.2 


Métodos  de  análisis  de  datos  (Apuntes) 

de  Zenaida  Hernández  Martín  (publicado  por  la  Universidad  de  La  Rioja)  se  difunde  bajo  una  Licencia 
Creative  Commons  Reconocimiento-NoComercial-SinObraDerivada  3.0  Unported. 

Permisos  que  vayan  más  allá  de  lo  cubierto  por  esta  licencia  pueden  solicitarse  a  los  titulares  del  copyright. 


©  Zenaida  Hernández  Martín 

©  Universidad  de  La  Rioja,  Servicio  de  Publicaciones,  2012 
publicaciones .  unirioj  a.  es 

E-mail:  publicaciones@unirioja.es 

ISBN  978-84-615-7579-4 

Edita:  Universidad  de  La  Rioja,  Servicio  de  Publicaciones 


Prólogo 


Este  libro  no  pretende  ser  nada  más  que  lo  que  es:  unos  apuntes  completos  de  lo  que 
se  imparte  en  las  clases  de  Métodos  de  Análisis  de  Datos.  Un  documento  de  ayuda  a 
los  estudiantes,  para  que  puedan  dedicarse  a  escuchar  atentamente  las  explicaciones  del 
profesor  y  a  resolver  los  ejemplos  y  ejercicios  planteados  en  clase  y,  a  la  vez,  que  sus 
apuntes  estén  completos,  las  definiciones  correctas,  las  explicaciones  estén  recogidas  y  que 
las  fórmulas  estén  correctamente  escritas. 

Aunque  se  incluyen  algunos  ejemplos,  en  estos  apuntes  no  se  incluye,  como  suele  ser 
habitual,  una  lista  de  problemas,  al  menos  en  esta  primera  versión. 

Por  otra  parte,  los  contenidos  teóricos  impartidos  en  clase  se  deben  completar  con 
unas  prácticas  en  aula  informática,  en  las  que  se  aprenderá  a  hacer  un  análisis  estadístico 
utilizando  un  software  adecuado.  Estas  prácticas  abarcan  desde  la  obtención  de  datos  a 
partir  de  las  fuentes  más  habituales  de  información  estadística,  al  análisis  de  los  mismos, 
tanto  de  forma  descriptiva  como  mediante  la  realización  e  interpretación  correcta  de  los 
contrastes  de  hipótesis  más  habituales  (los  apuntes  de  estas  prácticas  tampoco  están 
contenidos  en  este  libro). 

La  mayoría  de  los  gráficos  y  tablas  que  aparecen  en  estos  apuntes  se  han  realizado 
con  el  software  de  StatSoft,  Inc.  (2007).  STATISTICA  (Sistema  informático  de  análisis 
de  datos),  versión  8.0.  www.statsoft.com,  que  es  el  que  se  está  utilizando  actualmente  en 
las  clases  prácticas. 

Hablemos  del  contexto.  La  asignatura  de  Métodos  de  Análisis  de  Datos  es  una  asig¬ 
natura  de  Estadística  Básica,  que  se  imparte  en  varias  titulaciones,  sobre  todo  de  las 
llamadas  de  letras  y  cuyos  contenidos  están  pensados  para  familiarizar  a  los  estudiantes 
con  las  técnicas  más  elementales  de  la  Estadística,  con  su  manejo  y  su  interpretación. 

El  objetivo  de  la  asignatura  es  que  los  estudiantes  conozcan  distintas  medidas  y  técni¬ 
cas  estadísticas,  sepan  cuándo  aplicarlas  y  sobre  todo,  cómo  interpretarlas.  No  se  pre¬ 
tenden  grandes  sesiones  de  cálculo  y  tampoco  se  hace  mucho  hincapié  en  el  fundamento 
matemático,  sino  que  se  busca  la  comprensión  de  los  estadísticos,  cuándo,  para  qué  y  por 
qué  aplicarlos. 

Según  los  objetivos  descritos  para  esta  asignatura  en  los  distintos  Grados  en  los  que 
se  imparte,  el  estudiante  debe  adquirir  una  serie  de  competencias  y  habilidades,  entre  las 
que  se  encuentran  las  siguientes: 


■  Deberá  ser  capaz  de  enfrentarse  a  una  situación  y  reconocer,  si  lo  hay,  un  problema 
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estadístico.  Por  otra  parte,  a  la  vista  de  una  serie  de  resultados  estadísticos,  debe 
ser  capaz  de  interpretarlos,  resumiendo  la  información  y/o  describiendo  la  situación 
de  una  forma  coherente. 

■  Deberá  adquirir  conocimientos  estadísticos  básicos  suficientes  para  comprender  y 
defender  o  rechazar  argumentos  estadísticos  de  la  vida  cotidiana. 

■  Deberá  conocer  y  aplicar  las  técnicas  más  utilizadas  para  la  presentación  y  resumen 
de  datos  unidimensionales  y  bidimensionales,  tanto  cuantitativos  como  cualitativos. 

■  Deberá  ser  capaz  de  elaborar,  presentar  y  defender  un  informe  de  la  materia  bien 
estructurado,  utilizando  el  lenguaje  correcto  y  la  terminología  adecuada. 


Para  conseguirlo,  se  ha  pensado  en  un  temario  que  incluye  10  temas  y  que  son  los  que 
constituyen  este  curso. 

Este  documento  está  basado  en  el  desarrollo  del  temario  de  la  asignatura  durante 
los  cursos  2009-2010  y  2010-2011,  de  modo  que  se  ajusta  en  tiempo  y  contenidos  a  los 
objetivos  que  se  pretenden,  por  lo  que  es  válido  no  solo  para  los  estudiantes,  sino  también, 
como  marco  de  referencia,  para  cualquier  profesor  que  tenga  que  abordar  por  primera  vez 
esta  asignatura  o  alguna  similar. 

Como  decía  al  principio,  este  libro  no  pretende  ir  más  allá  de  los  apuntes,  completos, 
de  clase.  Tras  el  índice,  se  comentan  cuatro  libros  que  se  ajustan  bastante  al  temario  y 
al  nivel  de  esta  asignatura.  Para  acceder  a  otras  explicaciones  y/o  ampliar  conocimientos 
tienen  en  la  Biblioteca  de  la  Universidad  bibliografía  actualizada  más  que  suficiente. 

Por  último,  no  sería  justo  terminar  esta  pequeña  introducción  sin  agradecer  a  mis 
compañeros  Montse  San  Martín,  Juan  Carlos  Filial  y  David  Ortigosa,  sus  aportaciones  y 
correcciones  y  sobre  todo  por  su  apoyo  para  que  estos  apuntes  pudieran  salir  a  la  luz. 


Logroño,  julio  de  2011 
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Tema  1 


Estadísticas  económicas  y  sociales 


¿Para  qué  necesita  un  trabajador  social  o  un  economista  la  Estadística? 

¿Entendemos  las  noticias  de  los  periódicos? 

¿Sabemos  contestar  a  un  argumento  estadístico  elemental? 

El  objetivo  de  este  tema  es  variado. 

■  En  primer  lugar  y  como  tema  principal:  comprender  la  utilidad  de  la  Estadística  en 
las  ciencias  sociales. 

■  En  segundo  lugar,  debemos  establecer  algunas  definiciones  y  conceptos  elementales 
qne  nos  permitan  unificar  el  vocabulario  y  los  criterios  para  comenzar  a  trabajar 
utilizando  un  correcto  lenguaje  estadístico. 

■  Por  último,  para  hacer  un  estudio  estadístico  necesitamos  datos.  En  algunos  casos 
debemos  obtenerlos  nosotros,  pero  en  otros  muchos  casos,  ya  hay  mucha  información 
elaborada  por  organismos  oficiales.  En  este  sentido  comentaremos  diversas  fuentes 
de  información  estadística  tanto  de  ámbito  regional,  como  nacional  e  internacional. 


1.1.  La  utilidad  de  la  Estadística 


A  la  hora  de  tomar  decisiones  en  nuestro  trabajo,  e  incluso  en  cualquier  situación 
de  nuestra  vida  cotidiana,  nos  encontramos  con  qne  esas  decisiones  las  debemos  tomar 
basándonos  en  una  información  qne  nos  dan  o  qne,  de  alguna  forma,  conocemos. 

Aunque  no  nos  demos  cuenta,  estamos  manejando  información  estadística  en  situacio¬ 
nes  tales  como: 

■  El  niño  pide  la  paga  y  sus  padres  le  preguntan:  ¿y  cuánto  les  dan  a  tus  amigos  sus 
padres? 

■  Nos  cuestionamos  las  noticias  ya  que  leemos  o  escuchamos  que  «seis  de  cada  diez 
trabajadores  en  España  son  mileuristas»  (en  el  comentario  se  especifica  que  del 
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TEMA  1.  ESTADÍSTICAS  ECONÓMICAS  Y  SOCIALES 


total  de  los  27.94  millones  de  personas  que  perciben  algún  ingreso  (asalariados, 
pensionistas,  parados  y  autónomos),  el  63%  tiene  unos  ingresos  brutos  mensuales 
inferiores  a  los  1100  euros).  Mientras  que  por  otro  lado  nos  dicen  que  el  sueldo  medio 
mensual  en  España  es  de  más  de  1500  euros. 

■  Tenemos  que  renovar  el  alquiler  con  la  subida  del  IPC. 

■  Nos  dicen  que  los  precios  suben  un  2%  (y  no  nos  suben  más  el  sueldo),  pero  a 
nosotros  no  nos  llega  para  comprar  lo  mismo  que  el  año  pasado. 

■  Estamos  viendo  un  partido  de  baloncesto  y  tenemos  la  información  de  la  diferencia 
de  puntos  en  cada  minuto. 

Son  muchas  las  situaciones  en  las  que  vamos  a  tener  que  tomar  decisiones  importantes. 
Para  ello  tendremos  que  conocer,  de  alguna  forma,  la  situación  concreta  que  estamos 
analizando  por  lo  que  debemos  manejar  información  sobre  la  misma. 

Desgraciadamente  no  siempre  podremos  basar  nuestras  decisiones  en  la  experiencia, 
pero  cuando  esto  es  posible,  entra  en  juego  la  Estadística.  Por  lo  tanto,  las  situaciones 
que  nos  interesan  aquí  son  aquellas  en  las  que  vamos  a  manejar  datos  para  ayudarnos  a 
tomar  nuestras  decisiones. 

Una  vez  que  tenemos  los  datos,  la  investigación  social  se  puede  utilizar  con  dos  enfo¬ 
ques:  para  describir  el  fenómeno  o  para  tomar  decisiones. 

A  partir  de  una  masa  de  datos,  la  Estadística  Descriptiva  nos  permite  describir  la 
situación  analizada.  Para  ello  se  utilizan  métodos  de  reducción  de  la  masa  de  datos, 
cálculo  de  promedios,  dispersión  o  tendencias,  que  nos  permiten  sacar  conclusiones  de 
estos  datos. 

Supongamos,  por  ejemplo,  que  conocemos  las  notas  de  selectividad  de  los  225  estu¬ 
diantes  que  se  matricularon  en  septiembre  en  una  universidad  pequeña.  Esto  constituiría 
una  masa  de  datos. 

Vamos  a  manejar  una  tabla  ficticia  para  este  ejemplo,  pero  más  adelante  veremos 
que  en  muchas  ocasiones  (no  en  todas)  se  pueden  conseguir  los  datos  reales  sin  mucha 
dificultad. 
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5.7 

6.2 

7.3 

8.7 

8.5 

4.6 

8.7 

7.3 

9.5 

5.1 

9.1 

8.0 

1.2 

6.3 

3.4 

3.6 

8.7 

9.2 

3.1 

5.4 

6.5 

3.8 

8.2 

9.7 

3.9 

7.7 

9.4 

5.9 

7.7 

OO 

oó 

6.2 

2.3 

6.4 

7.8 

3.6 

7.1 

4.8 

3.6 

6.2 

7.1 

7.8 

4.6 

6.0 

8.9 

4.7 

8.7 

4.3 

5.3 

6.8 

1.8 

2.3 

6.3 

9.1 

8.2 

1.1.  LA  UTILIDAD  DE  LA  ESTADÍSTICA 
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La  simple  observación  directa  de  esta  masa  de  datos  (son  números)  no  nos  permite 
sacar  conclusiones  respecto  a  los  mismos.  Sin  embargo,  utilizando  las  técnicas  de  Estadísti¬ 
ca  Descriptiva,  incluso  las  más  elementales,  podemos  describir  el  comportamiento  de  las 
calificaciones  de  los  estudiantes  con  bastante  precisión. 

En  los  próximos  temas  veremos  con  detenimiento  estas  técnicas,  pero  ahora,  como 
ejemplo,  vamos  a  ver  su  utilidad: 

Un  primer  paso  para  sacar  alguna  conclusión  de  esta  masa  de  datos  consiste  en  redu¬ 
cirla.  Para  ello  se  procede  a  ordenarlos  y  agruparlos  en  categorías  (este  proceso  se  conoce 
como  tabulación): 


de  a 

Tabla  de  frecuencia;  selectividad  (Ejemplo T1) 

Fiecuencui 

Acumul.  de 
Frecuencia 

% 

Acumul.  de 
% 

0.000000<=x<  1.000000 

2 

2 

0,88889 

0,8889 

1 ,000000<=x<2 ,000000 

™7 

9 

3,11111 

4,0000 

2, 000000<=x<3, 000000 

10 

19 

4 ,44444  P  8,4444 

3 ,000000<=x<4 ,000000 

23 

42 

10,22222 

18,6667 

4 ,000000<=x<5 ,000000 

32 

74 

14,22222 

32,8889 

5, 000000<=x<6, 000000 

29 

103 

12,88889  45,7778 

6, 000000<=x<7, 000000 

42 

145 

18,66667 

64,4444 

7, 000000<=x<8, 000000 

32 

177 

14,22222 

78,6667 

8, 000000<=x<9 ,000000 

32 

209 

14,22222 

92,8889 

9 ,000000<=x<1 0,00000 

16 

225 

7,11111 

100,0000 

10,00000<=x<1 1,00000 

0 

225 

0,00000 

100,0000 

Faltante 

0 

225 

0,00000 

100,0000 

De  esta  forma,  podemos  comenzar  a  hacernos  una  idea  de  la  distribución  de  la  variable 
estudiada  (calificaciones). 

La  simple  observación  de  la  tabla  nos  permite  decir  que  la  mayoría  de  las  calificaciones 
están  en  la  parte  central  y  que  en  los  extremos  hay  pocas  observaciones;  que  hay  74 
suspensos  que  corresponden  al  32.89  %  de  las  observaciones  o  que  lo  más  habitual  es  tener 
una  nota  en  el  intervalo  [6,7). 

En  la  mayoría  de  las  ocasiones,  también  es  interesante  representar  gráficamente  esta 
información  ya  que  la  interpretación  suele  ser  más  sencilla: 
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Histograma:  selectividad 
—  Normal  esperado 


En  el  histograma  anterior,  podemos  visualizar  algunas  de  las  observaciones  que  ya 
hemos  hecho,  como  destacar  el  hecho  de  que  son  muy  pocas  las  calificaciones  por  debajo 
de  3  o  por  encima  de  9;  que  la  mayoría  de  las  calificaciones  se  encuentran  entre  4  y  9  y 
que  se  reparten  de  forma  bastante  «uniforme»  salvo  en  el  intervalo  [6,7)  en  el  que  hay  un 
mayor  número  de  calificaciones. 

Aunque  todavía  no  hemos  comenzado  con  la  asignatura  propiamente,  un  procedimiento 
estadístico  con  el  que  todos  estamos  familiarizados,  es  preguntarnos  por  la  calificación 
promedio.  La  media  aritmética  se  obtiene  sumando  todas  las  calificaciones  y  dividiendo 
por  el  número  total  de  estudiantes  y  nos  permite  hacernos  una  idea  de  la  tendencia  en  el 
grupo.  Nos  da  un  valor  alrededor  del  cual  se  encuentran  todas  las  demás  calificaciones. 
En  este  caso  la  calificación  media  es  de  5.92  lo  que  nos  dice  que  la  calificación  media  de 
selectividad  ha  sido  bastante  baja. 

Así,  con  estos  sencillos  recursos  estadísticos  (tablas  de  distribución  de  frecuencias, 
gráficos  y  la  media  aritmética)  hemos  podido  detectar  y  describir  algunos  aspectos  del 
comportamiento  de  las  calificaciones,  que  la  mera  observación  de  la  masa  de  datos  no  nos 
permite. 

Las  técnicas  de  Estadística  Descriptiva  nos  van  a  permitir  reducir  la  masa  de  datos  a 
unos  pocos  indicadores  con  los  que  podremos  describir  adecuadamente  el  comportamiento 
de  la  variable. 

La  Estadística  también  se  utiliza  para  contrastar  hipótesis.  Constantemente  hacemos 
hipótesis  o  conjeturas  sobre  ciertas  situaciones,  pero  cuando  nuestras  decisiones  las  tene¬ 
mos  que  basar  en  estas  hipótesis,  es  convenientes  contrastarlas. 


1.1.  LA  UTILIDAD  DE  LA  ESTADÍSTICA 
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Podemos  afirmar  (porque  es  una  creencia  o  porque  nos  da  la  impresión)  que  fuman  más 
los  hombres  que  las  mujeres  o  que  una  determinada  enfermedad  tiene  mayor  incidencia 
en  una  provincia  o  en  otra.  Sin  embargo,  si  tenemos  que  tomar  una  decisión  basada  en 
estos  hechos,  deberíamos  saber  cuál  es  el  nivel  de  confianza  de  estas  afirmaciones,  hasta 
qué  punto  podemos  apoyarnos  en  ellas.  Esto  lo  haremos  con  los  contrastes  de  hipótesis. 

Está  claro  que  si  tenemos  información  completa  de  un  fenómeno,  no  hay  nada  que 
contrastar.  Si  en  la  Universidad  de  La  Rioja  se  han  matriculado  3000  hombres  y  3600 
mujeres,  podemos  afirmar  con  certeza  absoluta  que  hay  más  mujeres  que  hombres. 

Sin  embargo,  hay  informaciones  que  nos  interesa  contrastar  ya  que  depender  del  sentido 
común  o  de  las  experiencias  cotidianas  tiene  sus  limitaciones  y  son  muchas  las  ocasiones 
en  las  que  las  «creencias  populares»  no  coinciden  con  la  realidad. 

Por  ejemplo:  «En  la  Universidad  de  La  Rioja  es  más  probable  que  tengan  el  carné  de 
conducir  los  hombres  que  las  mujeres»;  esta  afirmación  se  puede  deber  a  una  impresión 
por  lo  que  se  ve,  pero  no  se  sabe  a  ciencia  cierta.  Si  queremos  utilizarla  con  propiedad 
habrá  que  contrastarla. 

Por  otra  parte,  en  la  LIniversidad  de  La  Rioja  hay  unos  6600  alumnos,  por  lo  que  quizás 
no  nos  sea  posible  entrevistarlos  a  todos  para  saber  si  tienen  carné  o  no  y  distinguir  por 
sexo  a  los  conductores.  En  este  caso  habría  que  tomar  una  porción  o  muestra  del  grupo 
grande  que  queremos  analizar  (población),  probaremos  la  hipótesis  para  la  muestra  y 
decidiremos  si  es  posible  y  correcto  extender  el  resultado  a  la  población  de  la  que  se 
obtuvo  la  muestra. 

El  problema  de  generalizar,  o  hacer  inferencia,  es  que  al  tomar  una  muestra  estamos 
asumiendo  que  existe  un  error  inevitable,  por  muy  bueno  y  correcto  que  haya  sido  el 
muestreo.  No  podemos  garantizar  nuestra  respuesta  con  una  seguridad  del  100%.  Si  en 
la  tabla  de  las  notas  tomamos  varias  muestras  de  5  calificaciones,  veremos  que  las  me¬ 
dias  para  cada  una  de  las  muestras  son  distintas  a  la  media  global:  5.92.  Esto  es  lo  que 
llamaremos  error  de  muestreo. 

Supongamos  para  simplificar  que  la  mitad  de  los  alumnos  son  hombres  y  la  otra  mitad 
mujeres,  y  que  a  partir  de  las  listas  de  alumnos  tomamos  una  muestra  de  100  hombres 
(1  de  cada  33)  y  otra  de  100  mujeres  (1  de  cada  33),  ahora  les  preguntamos  si  tienen  el 
carné  o  no. 

Consideramos  las  siguientes  tres  respuestas: 


Respuesta  1 

Respuesta  2 

Respuesta  3 

H 

M 

H 

M 

H 

M 

Carné  SI 

60 

40 

55 

45 

51 

49 

Carné  NO 

40 

60 

45 

55 

49 

51 

Totales 

100 

100 

100 

100 

100 

100 

Las  3  respuestas  están  de  acuerdo  con  nuestra  hipótesis,  pero  lo  que  a  nosotros  nos 
interesa  es  saber  si  estas  diferencias  son  lo  suficientemente  importantes  como  para  gene¬ 
ralizarlas  a  todos  los  estudiantes.  Es  decir,  nos  preguntamos  si  las  diferencias  encontradas 
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se  deben  al  comportamiento  de  toda  la  población  o  solo  se  deben  a  la  muestra  elegida. 

¿Hasta  qué  punto  estamos  dispuestos  a  aceptar  la  hipótesis  con  estos  resultados?, 
¿en  qué  punto  es  suficientemente  grande  la  diferencia  como  para  considerarla  real?,  la 
Inferencia  Estadística  nos  permitirá  tomar  nuestra  decisión  de  una  forma  sencilla  y 
con  un  nivel  de  confianza  determinado. 


1.2.  Definiciones  iniciales 


En  los  comentarios  anteriores  hemos  estado  utilizando  algunos  términos  estadísticos  sin 
conocer  cuál  es  su  definición  correcta.  Para  poder  trabajar  en  Estadística  es  conveniente 
tener  claros  los  conceptos  y  utilizar  un  lenguaje  común,  que  no  dé  lugar  a  confusión,  por 
lo  que  vamos  a  proceder  a  dar  algunas  definiciones  básicas. 

Para  poder  realizar  cualquier  análisis  estadístico  debemos  disponer  de  unos  datos.  Y 
estos  datos  corresponden  a  los  valores  obtenidos  al  estudiar  determinadas  características 
en  los  elementos  de  un  conjunto  de  entes. 

Para  fijar  el  lenguaje  que  utilizaremos,  estableceremos  los  siguientes  términos: 


Población  es  el  conjunto  de  entes  (personas,  animales  o  cosas)  sobre  los  que  se  va  a 
llevar  a  cabo  la  investigación  estadística. 

Elemento  es  cada  uno  de  los  componentes  de  la  población  (pueden  ser  simples  o  com¬ 
puestos). 

Tamaño  de  la  población  es  el  número  de  elementos  que  la  componen. 

Caracteres  son  las  cualidades  o  rasgos  comunes  a  toda  la  población  que  vamos  a  estudiar. 
Pueden  ser  cuantitativos  (variables)  o  cualitativos  (atributos). 


Aunque  existe  el  análisis  estadístico  de  los  caracteres  cualitativos  (se  verá  al  final  del 
temario),  cuando  se  habla  de  análisis  estadístico,  generalmente  nos  referimos  al  análisis 
de  las  características  cuantitativas  observadas  en  los  elementos  de  una  población. 

Por  lo  tanto,  generalmente  trabajaremos  con  variables  estadísticas  que,  atendiendo  a 
los  valores  que  pueden  tomar,  pueden  ser  discretas  o  continuas;  y  esta  diferencia  hace 
que  en  muchas  ocasiones  tengan  un  tratamiento  diferente. 


■  Diremos  que  una  variable  estadística  es  discreta  si  dados  dos  valores  distintos  de 
la  variable,  entre  ellos  no  puede  haber  más  que  un  número  finito  de  valores  de  la 
variable,  por  muy  alejados  que  estén  entre  sí.  Por  ejemplo:  número  de  hijos. 

■  Diremos  que  una  variable  estadística  es  continua  si,  dados  dos  valores  distintos  de 
la  variable,  entre  ellos  hay  infinitos  posibles  valores  de  la  variable,  por  muy  próximos 
que  estén  entre  sí.  Por  ejemplo:  peso,  tiempo... 


1.3.  FUENTES  DE  INFORMACIÓN  ESTADÍSTICA 
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Por  otra  parte,  dentro  de  los  atributos  (también  llamados  variables  cualitativas),  cabe 
distinguir  dos  categorías:  los  atributos  que  son  simples  nombres  y/o  categorías  (atributos 
categóricos)  y  los  atributos  ordinales  que  además  permiten  algún  tipo  de  ordenación. 

Por  ejemplo,  el  estado  civil  es  un  atributo  categórico,  mientras  que  el  grado  de  satis¬ 
facción  o  el  nivel  de  estudios  son  atributos  ordinales. 

Es  muy  importante,  en  el  caso  de  los  atributos,  no  confundir  los  números  que  se  pueden 
utilizar  para  codificar  las  distintas  categorías  con  valores  resultantes  de  una  medición.  NO 
podremos  realizar  operaciones  aritméticas  con  estos  números. 

Otra  cuestión  muy  importante,  que  se  debe  tener  en  cuenta  antes  de  realizar  un  análisis 
estadístico  es  qué  es  lo  que  queremos  o  podemos  hacer,  en  función  del  tamaño  de  la 
población  objeto  de  estudio. 

Si  la  población  es  pequeña  y  podemos  obtener  datos  de  todos  los  elementos  de  la 
misma,  lo  que  haremos  será  un  análisis  descriptivo  (Estadística  Descriptiva). 

Pero,  si  la  población  es  muy  grande  (infinita  o  tan  grande  que  no  podemos  abordarla  en 
su  totalidad),  no  nos  queda  más  remedio  que  tomar  una  «muestra  representativa»,  analizar 
dicha  muestra  y  luego  estudiar  bajo  qué  condiciones  podemos  extender  los  resultados 
obtenidos  con  la  muestra  a  toda  la  población  o  si  podemos  inferir  algún  resultado  para  la 
población.  En  esto  consiste  la  Inferencia  Estadística. 

Una  vez  que  tenemos  claros  estos  conceptos,  para  realizar  un  análisis  estadístico,  ge¬ 
neralmente  seguiremos  los  siguientes  pasos: 

Paso  1:  Establecemos  la  población  que  queremos  estudiar. 

Paso  2:  Determinamos  las  características  que  nos  interesa  analizar  de  dicha  población. 

Paso  3:  Recogemos  los  datos. 

Paso  4:  Realizamos  el  análisis  de  datos. 

Paso  5:  Exponemos  nuestras  conclusiones. 


1.3.  Fuentes  de  información  estadística 


Como  ya  hemos  dicho,  para  realizar  un  análisis  estadístico  necesitamos  manejar  una 
masa  de  datos. 

Estos  datos  los  podemos  haber  recogido  nosotros  personalmente  mediante  estudios 
directos  de  la  población  o  de  una  muestra  representativa  de  la  misma,  pero  en  muchas 
ocasiones  tendremos  que  recurrir  a  datos  ya  elaborados. 

Los  organismos  oficiales  tienen  departamentos  de  Estadística  dedicados  a  la  recolección 
de  datos  que  utilizan  para  elaborar  sus  informes  correspondientes. 

En  la  mayoría  de  las  ocasiones  estos  datos  nos  los  presentan  semi-tratados  y  solo  en 
algunos  casos  (afortunadamente  cada  vez  más)  tenemos  acceso  a  los  microdatos,  es  decir 
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a  los  datos  originales  de  la  encuesta. 

No  vamos  a  ver  aquí  una  lista  exhaustiva  de  fuentes  de  información  estadística,  sino 
más  bien  una  idea  de  los  lugares  a  los  que  podemos  acudir. 

En  España,  lo  primero  que  se  nos  ocurre  es  acudir  al  Instituto  Nacional  de  Estadística 
(INE):  http://www.ine.es,  un  pequeño  paseo  por  esta  web  nos  permite  acceder  a  gran 
cantidad  de  información  estadística. 

Además,  si  en  la  pestaña  de  ayuda,  seleccionamos  «Enlaces»,  accederemos  a  una  página 
en  la  que  se  encuentran  las  direcciones  actualizadas  de  las  principales  fuentes  estadísticas, 
tanto  nacionales  como  internacionales: 


Ayuda  /  Enlaces 


Oficinas  y  departamentos  estadísticos 
Nacionales 

Oficinas  estadísticas  en  comunidades  autónomas 
Departamentos  estadísticos  en  Ministerios  v  Banco  de  España 

Otros  organismos  e  instituciones  con  información  estadística 

Otros  enlaces  de  interés  general 


En  el  mundo  Organismos  internacionales 

Unión  Europea  Europeos 

Resto  de  Europa  Resto  del  mundo 

América 

Asia 

Oceanía 

África 


Si  lo  que  necesitamos  son  los  microdatos,  la  página  del  INE  también  nos  permite 
acceder  a  muchos  de  ellos.  En  la  pestaña  de  Productos  y  Servicios  /Información  podemos 
seleccionar  ficheros  de  microdatos. 

Por  otra  parte,  si  lo  que  necesitamos  son  los  microdatos  de  las  estadísticas  que  ofrecen 
otras  fuentes,  debemos  acceder  mediante  su  página  web  (si  es  que  los  datos  son  accesibles 
al  público  en  general)  o  solicitarlos  al  organismo  correspondiente,  que  valorará  nuestra 
solicitud  y  puede  que  nos  los  ceda  o  no. 

Por  ejemplo,  para  obtener  unos  datos  que  son  públicos  en  el  CIS,  nos  piden  que  nos 
identifiquemos: 

http://www.cis.  es/cis/opencms/ES/formulario.jsp?dwld=/Microdatos/MD2811.zip 

Evidentemente  estas  no  son  todas  las  fuentes  estadísticas  ya  que  nos  hemos  dirigido 
solo  a  organismos  oficiales.  Hay  otras  muchas  organizaciones  que  también  elaboran  sus 
propias  estadísticas  y  que  nos  pueden  facilitar  sus  datos,  aunque  es  recomendable  utilizar 
los  datos  oficiales  siempre  que  sea  posible. 

También  se  puede  obtener  información  estadística  en  los  Anuarios  Estadísticos  y  otras 
publicaciones  en  papel,  ya  sean  de  organismos  oficiales  u  otras  organizaciones,  que  se 
encuentran  en  la  Biblioteca  o  en  las  sedes  de  los  mismos. 


Tema  2 


Estadística  Descriptiva 
unidimensional 


En  este  tema  veremos  cómo  realizar  el  análisis  descriptivo  completo  de  una  variable 
unidimensional. 

Primero  nos  haremos  una  idea  de  su  comportamiento  con  el  resumen  de  los  datos 
y  algunos  gráficos  elementales  y,  a  continuación,  veremos  cómo  calcular  las  principales 
medidas  que  nos  permitirán  describir  con  precisión  el  comportamiento  de  dicha  variable. 
Esta  descripción  la  haremos  interpretando  correctamente  todos  los  resultados  obtenidos. 

Los  epígrafes  del  tema  son  los  siguientes: 


■  Escalas  de  medición. 

■  Resumen  de  los  datos:  tablas  de  frecuencias. 

■  Gráficos  unidimensionales. 

■  Medidas  de  tendencia  central  y  de  posición:  media  aritmética,  mediana,  moda  y 
percentiles. 

■  Medidas  de  dispersión  absolutas  y  relativas:  Recorrido,  varianza,  desviación  típica, 
cuasivarianza,  cuasidesviación  típica,  recorrido  relativo  y  coeficiente  de  variación. 

■  Medidas  de  forma:  asimetría  y  curtosis. 

■  Medidas  de  concentración. 


2.1.  Escalas  de  medición 


Aunque  ya  lo  comentamos  en  el  tema  anterior,  vamos  a  dejar  un  poco  más  claro  el 
concepto  de  escala  de  medición  ya  que  el  tipo  de  escala  influirá  en  el  posible  tratamiento 
posterior  de  la  variable. 
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Escala  nominal:  las  observaciones  de  un  carácter  vienen  dadas  en  escala  nominal  cuan¬ 
do  se  pueden  clasificar  en  varias  categorías,  excluyentes  entre  sí,  entre  las  que  no  es 
posible  establecer  ninguna  relación  de  orden  y  tampoco  es  posible  operar  matemáti¬ 
camente. 

En  este  tipo  de  escala  vienen  dados  los  atributos  categóricos:  sexo,  estado  civil, 
tipo  de  contrato  laboral,  lugar  de  nacimiento,  sector  de  actividad  económica,... 

Escala  ordinal:  las  observaciones  de  un  carácter  vienen  dadas  en  escala  ordinal  cuando 
se  pueden  clasificar  en  varias  categorías,  excluyentes  entre  sí,  entre  las  que  es  posible 
establecer  alguna  relación  de  orden,  aunque  no  es  posible  operar  matemáticamente. 
Las  categorías  se  pueden  ordenar  pero  no  se  puede  cuantificar  la  diferencia  entre 

ellas. 

En  este  tipo  de  escala  vienen  dados  los  atributos  ordinales:  nivel  de  ingresos,  nivel 
de  estudios,  grado  de  satisfacción,... 

Escala  de  intervalo:  las  observaciones  de  un  carácter  vienen  dadas  en  escala  de  inter¬ 
valo  cuando  existe  una  unidad  de  medida  que  nos  permite  cuantificar  la  distancia 
existente  entre  dos  observaciones,  pero  el  cero  es  arbitrario. 

En  este  tipo  de  escala  vienen  dadas  algunas  variables  (caracteres  cuantitativos): 
la  temperatura  en  grados  Celsius  o  en  grados  Fahrenheit,  fechas,... 

Si  observamos  dos  temperaturas:  30°  C  y  15°  C  (equivalentemente:  86  °F  y  59  °F 
respectivamente  -  °F=32+1.8  °C  -),  podemos  establecer  distancias  (15  grados  de 
diferencia  en  la  escala  Celsius,  o  27  grados  en  la  escala  Fahrenheit),  pero  no  podemos 
afirmar  que  30  °C  es  una  temperatura  doble  que  15  °C,  la  temperatura  es  la  misma 
sea  cual  sea  la  escala  de  medida  y  aunque  30  es  el  doble  de  15,  sin  embargo  86  no 
es  el  doble  de  59. 

Escala  de  razón  (proporción  o  cociente):  las  observaciones  de  un  carácter  vienen 
dadas  en  escala  de  razón  cuando  existe  una  unidad  de  medida  que  nos  permite 
cuantificar  la  distancia  existente  entre  dos  observaciones  y  además  existe  un  cero 
absoluto. 

En  este  tipo  de  escala  vienen  dadas  la  mayoría  de  las  variables  (caracteres 
cuantitativos):  edad,  peso,  salario,  nivel  de  inventario,... 

En  los  dos  últimos  casos  (escala  de  intervalo  y  escala  de  razón),  al  existir  una  unidad  de 
medida,  se  puede  operar  matemáticamente  con  los  datos  y  obtener  una  serie  de  medidas  o 
indicadores  que  nos  van  a  permitir  describir  el  comportamiento,  para  nuestra  población, 
de  la  característica  que  estamos  analizando. 

En  algunos  libros,  solo  se  consideran  3  tipos  de  escala,  ya  que  las  escalas  de  intervalo 
y  de  razón  se  unen  en  una  única  categoría  llamada  escala  cuantitativa. 


2.2.  Resumen  de  los  datos:  tablas  de  frecuencias 


Lina  vez  que  hemos  determinado  cuál  es  la  población  que  queremos  estudiar  y  qué  ca¬ 
racterísticas  queremos  analizar,  el  siguiente  paso  es  la  recogida  de  datos. 
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Para  cada  individuo,  obtendremos  tantos  valores  como  características  estemos  anali¬ 
zando.  Así,  si  en  una  población  solo  nos  interesa  la  edad,  para  cada  individuo  tendremos 
un  único  valor:  su  edad;  pero  si  nos  interesa  la  edad,  antigüedad  en  la  empresa,  estado 
civil  y  salario,  para  cada  individuo  tendremos  4  valores. 

En  el  primer  caso  diremos  que  obtenemos  una  variable  unidimensional  (E=edad)  y  en 
el  segundo  caso,  tenemos  una  variable  de  dimensión  4  (E,  A,  C,  S ). 

En  realidad,  la  variable  de  dimensión  4,  está  formada  por  4  variables  unidimensionales, 
con  la  particularidad  de  que  los  valores  de  cada  4-tupla,  corresponden  al  mismo  individuo 
o  elemento  de  la  población.  En  este  curso,  solo  nos  vamos  a  ocupar  de  los  análisis  de 
variables  unidimensionales  y  bidimcnsionales. 

Para  comenzar  nos  vamos  a  referir  al  estudio  de  un  único  carácter  poblacional  y  por 
lo  tanto  a  una  variable  unidimensional  (por  ahora  no  vamos  a  distinguir  entre  variables 
cualitativas  y  cuantitativas). 

Las  variables,  en  general,  se  suelen  nombrar  con  una  letra  mayúscula  (E,  A,  X,  Y, ... ). 
Cuando  observamos  una  variable  en  una  población,  obtenemos  una  serie  de  valores  dis¬ 
tintos  para  esa  variable:  18,  19,  20,...,  o  soltero,  casado,  viudo,...  Los  distintos  valores 
observados  de  la  variable  se  suelen  nombrar  con  la  misma  letra  que  la  variable  pero  en 
minúscula. 

Al  observar  una  característica,  X,  de  la  población  podemos  obtener  unos  valores  (dis¬ 
tintos  entre  sí):  xi,X2 ,  Además,  cada  uno  de  los  valores  distintos  observados  de  la 

variable,  puede  aparecer  una  o  más  veces. 

Definimos: 


Frecuencia  absoluta  de  un  determinado  valor,  xt,  de  la  variable  (y  la  represen¬ 
taremos  por  ni ):  es  el  número  de  veces  que  se  presenta  ese  determinado  valor  xt. 

Frecuencia  relativa  de  un  determinado  valor,  x¿,  de  la  variable  (y  la  representa¬ 
remos  por  fi ):  es  la  proporción  de  veces  que  aparece  ese  valor  en  el  conjunto  de 
observaciones  y  se  calcula  como  el  cociente  de  su  frecuencia  absoluta  (n¿)  y  el  núme¬ 
ro  total  de  datos,  N. 

Frecuencia  absoluta  acumulada  de  un  determinado  valor,  x¿,  de  la  variable  (y 

la  representaremos  por  Nt):  es  la  suma  de  las  frecuencias  absolutas  de  todos  los  va¬ 
lores  de  la  variable  menores  o  iguales  que  dicho  valor  x¿. 

Ni  =  Y?j= i  nj  =n  i  4 - hn¿,  Nk=N. 

Frecuencia  relativa  acumulada  de  un  determinado  valor,  x¿,  de  la  variable  (y  la 

representaremos  por  Ft):  es  la  suma  de  las  frecuencias  relativas  de  todos  los  valores 
de  la  variable  menores  o  iguales  que  dicho  valor,  xt. 

F  =  E‘.!  fi  =  h  +  ■  ■  ■  +  fi  =  f  .  Fk= 1. 

Las  frecuencias  acumuladas  solo  tienen  sentido  si  la  escala  es  ordinal  o  cuantitativa. 
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Cuando  en  un  conjunto  de  valores  observados  de  una  variable  se  realizan  las  opera¬ 
ciones  de  ordenación  y  agrupación  de  los  valores  que  se  repiten  (determinación 
de  la  frecuencia  de  cada  valor),  se  obtiene  una  tabla  estadística  de  distribución  de 
frecuencias. 

A  dicho  conjunto  de  operaciones  se  le  denomina  tabulación. 

Nota:  en  el  caso  de  los  atributos,  los  valores  se  pueden  escribir  en  cualquier  orden, 
pero  si  son  atributos  ordinales,  el  construir  la  tabla  con  los  valores  ordenados,  facilita  la 
comprensión  de  la  misma. 

Para  ver  cómo  se  emplean  estos  conceptos,  consideremos  el  siguiente  ejemplo: 

Población:  La  plantilla  de  una  pequeña  empresa,  formada  por  20  jóvenes. 

Variable:  edad,  expresada  en  años. 

Valores  observados:  _ 


18 

20 

22 

19 

18 

20 

18 

19 

21 

20 

20 

21 

18 

20 

21 

19 

20 

21 

18 

20 

Entonces,  si  llamamos  X  a  la  variable  edad,  los  valores  X{  distintos  que  hemos  observado 
son:  18,  19,  20,  21  y  22. 

La  correspondiente  tabla  de  frecuencias  será: 


Xi 

rii 

Nt 

fi 

Fi 

18 

5 

5 

5/20 

5/20 

19 

3 

8 

3/20 

8/20 

20 

7 

15 

7/20 

15/20 

21 

4 

19 

4/20 

19/20 

22 

1 

20 

1/20 

1 

20 

1 

Ejemplo:  Para  las  notas  de  100  alumnos,  vamos  a  construir  la  tabla  de  frecuencias: 


4 

1 

5 

6 

3 

5 

2 

4 

4 

6 

3 

4 

0 

4 

7 

7 

3 

4 

8 

6 

8 

3 

4 

5 

3 

6 

9 

6 

1 

5 

1 

0 

1 

2 

1 

3 

2 

7 

5 

6 

5 

4 

3 

5 

5 

4 

7 

5 

2 

1 

2 

1 

2 

3 

1 

3 

5 

2 

5 

5 

7 

5 

3 

5 

4 

6 

6 

4 

7 

7 

6 

0 

2 

4 

2 

4 

7 

3 

3 

2 

8 

4 

6 

6 

4 

5 

10 

6 

4 

7 

8 

2 

4 

6 

4 

4 

4 

2 

6 

7 
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La  correspondiente  tabla  de  frecuencias  será: 


Xi 

rti 

N i 

fi 

Fi 

0 

3 

3 

0.03 

0.03 

1 

8 

11 

0.08 

0.11 

2 

12 

23 

0.12 

0.23 

3 

12 

35 

0.12 

0.35 

4 

20 

55 

0.20 

0.55 

5 

15 

70 

0.15 

0.70 

6 

14 

84 

0.14 

0.84 

7 

10 

94 

0.10 

0.94 

8 

4 

98 

0.04 

0.98 

9 

1 

99 

0.01 

0.99 

10 

1 

100 

0.01 

1.00 

100 

1 

Las  distribuciones  de  frecuencias  se  pueden  clasificar  de  acuerdo  con  el  número  de  los 
valores  observados  de  la  variable,  así  como  con  el  número  de  observaciones  totales: 


■  En  el  caso  de  pocas  observaciones  y  pocos  valores  de  la  variable,  no  es  necesario 
realizar  la  operación  de  agrupamiento.  En  este  caso,  únicamente  procede  realizar 
una  ordenación  de  los  valores  de  la  variable.  Esta  ordenación  no  supone  tratamiento 
estadístico  alguno,  pues  para  que  exista  «tratamiento  estadístico»  se  debe  disponer 
de  una  «masa  de  datos». 

Ejemplo:  Variable:  peso  físico 

Valores  observados:  50,  64,  80,  72. 

Número  de  observaciones  :  4 

El  único  tratamiento  posible  es  la  ordenación  de  los  valores. 

■  Lógicamente  cuando  hay  muchos  valores,  no  puede  haber  pocas  observaciones. 

■  Cuando  disponemos  de  muchas  observaciones  correspondientes  a  pocos  valores  de  la 
variable  aparecen  las  tablas  de  frecuencias.  Generalmente  este  tipo  de  distribuciones 
se  presenta  para  variables  discretas,  ya  que  es  poco  realista  que  al  realizar  muchas 
observaciones  de  una  variable  continua,  se  obtengan  pocos  valores  diferentes. 

Como  ejemplo  de  una  distribución  de  este  tipo,  puede  servir  el  ejemplo  anterior  de 
los  20  empleados.  O  bien,  estudiar  la  variable  edad,  con  precisión  de  años,  en  los 
alumnos  de  primera  matrícula  en  la  Universidad  de  La  Rioja. 

■  Si  son  muchas  las  observaciones  y  muchos  los  valores  observados  de  la  variable,  en 
ocasiones  se  procede  previamente  a  la  agrupación  de  los  valores  de  la  variable  en 
intervalos.  Cuando  esto  ocurre,  se  habla  de  tablas  agrupadas  en  intervalos.  Este 
tipo  de  tablas  es  aplicable  tanto  a  las  variables  discretas  (cuando  es  muy  elevado  el 
número  de  valores),  como  a  las  variables  continuas. 
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En  este  último  caso,  lo  primero  que  se  hace  es  agrupar  los  valores  de  la  variable  en 
intervalos,  que  pueden  ser  de  amplitud  constante  o  no,  y  calcular  las  frecuencias  en  cada 
intervalo. 

Para  agrupar  los  datos  en  intervalos  o  clases,  debemos  comenzar  determinando  el 
recorrido  o  rango  de  la  variable,  que  se  define  como  la  diferencia  entre  el  mayor  y  el 
menor  valor  de  la  variable: 

Re  =  máx  Xi  —  mín  Xi 

Este  recorrido  se  divide  entonces  en  intervalos.  Lo  más  cómodo  para  el  tratamiento  pos¬ 
terior  de  la  distribución  es  que  los  intervalos  sean  de  amplitud  constante,  pues  entonces: 
Re=  número  de  intervalos  x  amplitud,  lo  cual  permite  deducir: 

-  el  número  de  intervalos,  si  fijamos  la  amplitud 

-  la  amplitud,  si  fijamos  el  número  de  intervalos. 

No  existen  reglas  fijas  para  determinar  el  número  idóneo  de  intervalos,  hasta  el  punto 
de  que  a  veces  se  hacen  varias  pruebas  hasta  conseguir  resaltar  las  características  del 
fenómeno.  Cuando  no  existen  otras  indicaciones,  un  valor  comúnmente  aceptado  es  un 
número  próximo  a  raíz  cuadrada  de  N  (siendo  N  el  número  total  de  observaciones). 

Cada  intervalo  queda  especificado  por  sus  límites.  En  general  para  el  intervalo  i-ésimo, 
estos  límites  se  representan  por  l,-\  y  lt  ,  donde  i  es  el  límite  inferior  y  U  el  límite 
superior. 

Un  problema  que  puede  surgir  es  que  el  valor  de  la  variable  coincida  exactamente  con 
el  límite  del  intervalo.  Para  evitar  que  aparezcan  situaciones  conflictivas,  es  conveniente 
especificar  el  tipo  de  intervalo.  Generalmente  se  utiliza  abierto  por  la  izquierda  y  cerrado 
por  la  derecha:  (a,  6]  o  ]a,b\.  Lo  cual  significa  que  dentro  del  intervalo  se  incluyen  los 
valores  comprendidos  entre  a  y  b,  incluido  b  y  excluido  a. 

Para  facilitar  el  manejo  matemático  de  los  intervalos,  es  preciso  considerar  un  valor 
concreto  de  la  variable  como  representante  de  cada  intervalo.  Generalmente  se  toma  como 
tal  el  valor  central  del  intervalo,  y  se  le  denomina  marca  de  clase. 

Ejemplo:  en  una  escuela,  las  notas  de  Física  de  100  estudiantes  fueron: 


4.4 

1.1 

4.6 

5.8 

2.5 

4.8 

1.8 

4.1 

3.5 

5.9 

2.9 

3.5 

0.2 

3.7 

6.8 

7.0 

3.1 

4.4 

8.4 

6.4 

8.2 

2.6 

4.2 

5.1 

2.9 

5.9 

9.2 

5.6 

0.5 

5.2 

0.8 

0.1 

1.2 

4.7 

2.1 

0.6 

3.2 

1.5 

6.7 

6.1 

4.7 

4.3 

3.3 

4.8 

4.7 

4.3 

6.9 

4.9 

2.1 

0.9 

1.5 

1.1 

2.2 

2.9 

1.4 

3.1 

4.6 

1.9 

4.9 

5.1 

7.1 

5.2 

3.2 

5.1 

4.4 

5.7 

6.0 

4.3 

6.5 

7.3 

6.2 

0.3 

1.7 

3.9 

2.2 

4.0 

6.5 

3.0 

3.1 

1.6 

8.0 

4.1 

5.9 

6.0 

4.1 

5.1 

1.0 

6.3 

4.1 

7.4 

8.1 

2.0 

3.6 

5.9 

3.8 

4.0 

4.3 

1.8 

6.0 

7.1 

Puesto  que  las  puntuaciones  pueden  ir  de  0  a  10,  es  cómodo  el  hacer  10  intervalos  de 
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longitud  constante  igual  a  1  punto.  Los  intervalos,  las  marcas  de  clase  y  los  distintos  tipos 
de  frecuencias  son  los  siguientes: 


Xi 

n% 

Ni 

fi 

Fi 

[0,1] 

0.5 

8 

8 

0.08 

0.08 

(1,2] 

1.5 

12 

20 

0.12 

0.20 

(2,3] 

2.5 

10 

30 

0.10 

0.30 

(3,4] 

3.5 

14 

44 

0.14 

0.44 

(4,5] 

4.5 

21 

65 

0.21 

0.65 

(5,6] 

5.5 

16 

81 

0.16 

0.81 

(6,7] 

6.5 

10 

91 

0.10 

0.91 

00 ' 

7.5 

5 

96 

0.05 

0.96 

(8,9] 

8.5 

3 

99 

0.03 

0.99 

(9,10] 

9.5 

1 

100 

0.01 

1 

En  las  distribuciones  agrupadas  en  intervalos  se  puede  presentar  el  problema  de  que 
el  último  intervalo  sea  abierto,  es  decir,  que  no  tenga  límite  superior  (idéntico  problema 
se  puede  presentar  con  el  primer  intervalo  y  el  extremo  inferior). 

Por  ejemplo,  vamos  a  considerar  la  siguiente  distribución  de  frecuencias  de  los  ingresos 
mensuales  de  1.000  familias: 


Intervalo 
(en  euros) 

Marca  de  clase 

Xi 

Frecuencia  absoluta 

rii 

0-1000 

500 

100 

1000-2000 

1500 

300 

2000-3000 

2500 

400 

3000-5000 

4000 

150 

más  de  5000 

¿? 

50 

1000 


En  la  distribución  anterior  no  se  puede  determinar  directamente  la  marca  de  clase 
correspondiente  al  último  intervalo. 

Cuando  se  conocen  los  valores  individuales  de  la  distribución,  lo  que  suele  hacerse 
es  tomar  como  marca  de  clase  del  último  intervalo  el  promedio  de  todos  los  valores  que 
corresponden  al  mismo  (en  este  ejemplo  se  calcularía  el  promedio  correspondiente  a  las 
50  familias  que  cuentan  con  ingresos  superiores  a  5000  euros  mensuales). 

Si  no  se  dispone  de  esa  información  individual,  no  existen  criterios  objetivos  que  nos 
permitan  determinar  la  marca  de  clase. 

Sin  embargo,  para  el  cálculo  de  ciertas  características  de  la  distribución,  como  veremos 
más  adelante,  es  necesario  conocer  todas  las  marcas  de  clase.  En  ese  caso,  se  toma  como 
marca  de  clase  de  un  intervalo  abierto,  el  valor  que,  a  juicio  del  que  realiza  la  investiga¬ 
ción ,  mejor  representa  el  intervalo.  Como  se  puede  observar  esta  es  una  determinación 
arbitraria,  pero  en  ciertos  casos,  no  existe  otra  solución. 
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Como  ya  se  ha  indicado,  se  suele  tomar  como  marca  de  clase  el  valor  central  del 
intervalo,  ya  que  en  principio  se  considera  como  el  valor  más  representativo  del  mismo. 
Pero  en  algunas  ocasiones  se  observa  que  este  criterio  es  totalmente  inaceptable.  Así, 
en  el  ejemplo  anterior,  no  parece  razonable  que  la  marca  de  clase  500  euros,  sea  un 
buen  representante  de  las  100  familias  con  ingresos  comprendidos  entre  0  y  1000  euros. 
Lógicamente,  cabe  suponer  que  la  mayor  parte  de  estas  familias  se  acercarán  más  a  los 
1000  euros  que  a  los  0  euros.  Para  conseguir  que  la  marca  de  clase  sea  representativa, 
debe  adoptarse  una  solución  similar  a  la  adoptada  en  los  intervalos  abiertos. 


2.3.  Lectura  de  las  tablas  de  frecuencias 

Puesto  que,  como  hemos  comentado,  la  reducción  de  datos  se  realiza  para  hacer  más 
manejable  y  comprensible  la  masa  de  datos,  vamos  a  ver  ahora  cómo  extraer  información 
de  una  tabla  de  frecuencias,  y  cómo  expresar  dicha  información,  dependiendo  de  la  forma 
de  la  tabla  y  de  nuestras  necesidades. 

Supongamos  que  tenemos  la  siguiente  tabla  con  la  información  sobre  los  estudiantes 
de  cierta  universidad,  por  sexo: 


Sexo 

Si 

Frecuencia 

nt 

Hombre 

Mujer 

25704 

24696 

Total 

50400 

Lina  simple  mirada  a  la  tabla  nos  permite  decir  que  en  esa  universidad  hay  más  hombres 
que  mujeres,  y  que  en  total  hay  50400  estudiantes. 

Podríamos  ampliar  esta  información  si  completamos  la  tabla  con  las  frecuencias 
relativas  y  porcentajes: 


Sexo 

Frecuencia 

Frecuencia  relativa 

Porcentaje 

Ti,, 

fi 

100  x  fi 

Hombre 

25704 

0.51 

51 

Mujer 

24696 

0.49 

49 

Total 

50400 

1 

100 

Ahora  esa  diferencia  la  podemos  cuantificar:  el  51  %  de  los  estudiantes  de  esa  univer¬ 
sidad  son  hombres,  mientras  que  el  49%  restante  son  mujeres. 

Por  otra  parte,  nos  puede  interesar  comparar  a  los  estudiantes  por  sexo  pero  no  en  toda 
la  universidad  sino  para  los  estudiantes  de  Ciencias  y  de  Letras,  es  decir,  nos  podríamos 
preguntar  si  también  es  cierto  que  hay  más  hombres  que  mujeres  tanto  en  las  facultades 
de  Ciencias  como  en  las  de  Letras. 
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Para  ello  deberíamos  tener  información  del  sexo  y  tipo  de  facultad  de  cada  uno  de 
los  estudiantes  (variable  bidimensional),  y  esta  información  la  podríamos  recoger  en  una 
tabla  del  tipo: 


Facultad 

Sexo 

Ciencias 

Letras 

Total 

Hombre 

13608 

12096 

25704 

Mujer 

16632 

8064 

24696 

Total 

30240 

20160 

50400 

Entonces,  podemos  decir  que  aunque  en  las  facultades  de  Letras  sí  que  es  cierto  que  el 
número  de  hombres  es  mayor  que  el  número  de  mujeres,  esto  no  es  cierto  en  las  facultades 
de  Ciencias,  donde  es  mayor  el  número  de  mujeres  que  el  de  hombres. 

También  de  esta  tabla  podemos  obtener  otra  información  y  es  que  en  esta  universidad 
hay  más  estudiantes  de  Ciencias  que  de  Letras. 

Cuando  los  grupos  tienen  distinto  tamaño,  para  hacer  las  comparaciones  entre  los 
grupos  y  hacernos  una  idea  clara  de  las  diferencias,  es  conveniente  «estandarizar»  las  dis¬ 
tribuciones  por  tamaño,  para  ello  se  suelen  utilizar  las  proporciones  o  los  porcentajes. 

Recordemos  que  las  proporciones  comparan  el  tamaño  de  una  categoría  dada  con  el 
valor  de  toda  la  distribución  (son  las  frecuencias  relativas).  Sin  embargo  hay  mucha  gente 
que  prefiere  indicar  el  tamaño  relativo  en  forma  de  porcentaje,  o  lo  que  es  lo  mismo,  la 
frecuencia  de  una  determinada  categoría  por  cada  100  casos. 

Veámoslo  sobre  el  ejemplo  anterior.  Comparamos  las  distribuciones  por  columnas. 


Facultad 

Sexo 

Ciencias 

Letras 

Total 

Hombre 

13608  (45  %) 

12096  (60  %) 

25704  (51  %) 

Mujer 

16632  (55  %) 

8064  (40  %) 

24696  (49  %) 

Total 

30240  (100%) 

20160  (100%) 

50400  (100%) 

Ahora  podemos  saber  que  en  las  facultades  de  Ciencias,  de  cada  100  alumnos  matri¬ 
culados,  45  son  hombres  y  55  son  mujeres,  mientras  que  en  las  facultades  de  Letras,  hay 
un  60  %  de  estudiantes  hombres  y  solo  un  40  %  de  mujeres. 

Como  podemos  ver,  se  pueden  apreciar  mejor  las  diferencias. 

Nota:  esta  tabla  también  admite  otra  interpretación,  en  la  que  en  lugar  de  estudiar  el 
sexo  de  los  estudiantes  en  cada  tipo  de  facultad,  se  estudie  el  tipo  de  estudios  por  sexo 
(es  decir,  podemos  hacer  la  interpretación  por  filas). 


Facultad 

Sexo 

Ciencias 

Letras 

Total 

Hombre 

13608  (52.94%) 

12096  (47.06  %) 

25704  (100%) 

Mujer 

16632  (67.35  %) 

8064  (32.65%) 

24696  (100%) 

Total 

30240  (60  %) 

20160  (40  %) 

50400  (100%) 
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De  este  modo  podríamos  decir  que  en  esta  universidad,  el  60  %  de  los  alumnos  estudian 
en  facultades  de  Ciencias  y  el  40  %  lo  hace  en  facultades  de  Letras.  Y  por  sexos,  mientras 
los  hombres  se  reparten  en  un  52.94%  en  facultades  de  Ciencias  y  el  47.06%  restante  en 
facultades  de  Letras,  entre  las  mujeres  las  diferencias  son  mucho  más  acusadas  ya  que 
un  67.35%  estudian  en  facultades  de  Ciencias  y  solo  un  32.65%  lo  hace  en  facultades  de 
Letras. 

Tanto  entre  los  hombres  como  entre  las  mujeres  se  mantiene  la  tendencia  global  y  es 
mayor  la  proporción  de  los  que  estudian  en  las  facultades  de  Ciencias  que  en  las  de  Letras. 


Otra  forma,  aunque  menos  común,  de  estandarizar  por  tamaño  es  la  razón,  que  con¬ 
siste  en  comparar,  mediante  un  cociente,  los  casos  que  hay  en  una  categoría  con  los  que 
hay  en  otra  categoría. 

Si  estamos  interesados  en  conocer,  en  las  facultades  de  Letras,  la  razón  de  hombres 
(12096)  a  mujeres  (8064),  construimos  el  cociente  y  simplificamos: 


razón  = 


12096 

8064 


3 

2 


es  decir  que,  en  las  facultades  de  Letras,  hay  3  hombres  por  cada  2  mujeres. 


Para  unificar  la  terminología,  las  razones  se  suelen  dar  en  unidades  «por  cada 
100»  unidades.  De  este  modo: 


12096  3 

razón  x  100  =  - x  100  =  -  x  100  =  150 

8064  2 

es  decir,  que  en  las  facultades  de  Letras,  hay  150  hombres  por  cada  100  mujeres. 

Si  comparamos  tipos  de  estudios  de  las  mujeres  de  esta  universidad,  tendríamos: 

16632  33  825 

razón  x  100  = - —  x  100  =  —  x  100  = - =  206.25 

8064  16  4 

es  decir,  que  en  el  grupo  de  las  mujeres  universitarias,  hay  33  realizando  estudios  de 
Ciencias  por  cada  16  que  realizan  estudios  de  Letras.  O  bien,  hay  aproximadamente  206 
mujeres  en  las  facultades  de  Ciencias  por  cada  100  que  están  en  las  facultades  de  Letras. 

Otro  tipo  de  razones,  que  se  usan  más  que  las  anteriores,  son  las  tasas. 

Todos  hemos  oído  hablar  de  tasas  de  nacimiento,  de  mortalidad,  de  divorcios,  etc... 
Así  como  en  las  razones  se  comparan  el  número  de  casos  de  un  subgrupo  o  categoría  con 
los  de  otro  subgrupo,  las  tasas  indican  comparaciones  entre  el  número  de  casos  reales 
y  el  número  de  casos  potenciales.  Por  ejemplo,  para  determinar  la  tasa  de  fecundidad 
en  una  determinada  población  se  puede  calcular  el  número  de  nacimientos  vivos  reales 
dividido  por  el  número  de  mujeres  en  edad  de  quedarse  embarazadas  (que  representan 
casos  potenciales);  o  del  mismo  modo,  la  tasa  de  divorcios  se  calcula  como  el  número 
de  divorcios  reales  dividido  por  el  número  de  matrimonios  que  ocurren  en  un  período  de 
tiempo  (en  un  año,  por  ejemplo). 
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Las  tasas  suelen  darse  en  términos  de  1000  casos  potenciales  (es  decir,  se  multiplica 
por  mil  el  resultado  del  cociente).  Por  ejemplo,  la  tasa  de  natalidad  en  España  en  el  año 
2008  fue  de  9.87  nacimientos  por  cada  1000  habitantes. 

frecuencia  de  casos  reales 

tasa  =  - - x  1000 

frecuencia  de  casos  potenciales 

Otro  tipo  de  tasa  muy  utilizado  es  la  tasa  de  cambio  o  tasa  de  variación  (por¬ 
centual)  que  suele  utilizarse  para  comparar  un  valor  de  una  población  en  dos  instantes 
diferentes  de  tiempo.  Se  suele  expresar  en  porcentaje.  Si  un  producto,  en  un  año,  ha 
pasado  de  costar  80  euros  a  costar  100  euros,  la  tasa  de  cambio  sería: 


,  ,  valor  actual  -  valor  origen  100  —  80 

tasa  de  cambio  = - - -  x  100  = - x  100  =  25 


valor  origen 


80 


el  precio  ha  aumentado  en  un  25%  (respecto  al  valor  original).  Efectivamente,  el  25%  de 
80  euros  son  20  euros,  que  es  lo  que  ha  aumentado  el  precio. 


La  tasa  de  cambio  puede  ser  negativa,  cuando  el  valor  disminuye  en  el  tiempo  en  lugar 
de  aumentar. 


Nota:  es  importante  observar  que  si  el  precio  original  hubiera  sido  de  100  euros  y  pasa 
a  costar  120  euros,  la  tasa  de  cambio  sería: 


valor  actual  -  valor  origen 

tasa  de  cambio  = - - -  x  100 

valor  origen 

en  este  caso  la  tasa  de  cambio  sería  del  20  %. 


120  -  100 
100 


x  100 


20% 


Es  decir,  que  un  mismo  aumento  de  20  euros,  nos  da  distintas  tasas  de  cambio,  de¬ 
pendiendo  del  valor  original. 


2.4.  Gráficos  unidimensionales 


Como  ya  hemos  comentado,  el  primer  paso  en  el  análisis  de  los  datos  consiste  en  la 
reducción  de  la  masa  de  datos  para  poder  obtener  una  primera  información  acerca  de  las 
características  del  fenómeno  que  estamos  estudiando. 

Para  hacernos  una  idea  del  comportamiento  de  una  variable,  además  de  las  tablas 
de  frecuencias,  suele  ser  muy  útil  utilizar  representaciones  gráficas,  que  nos  permiten 
visualizar,  si  las  hay,  características  destacables. 

Existen  gráficos  más  o  menos  sofisticados,  pero  en  general  contienen  la  misma  infor¬ 
mación.  Vamos  a  comentar  algunos  de  los  más  elementales. 

Distinguiremos  los  gráficos  dependiendo  de  si  nuestra  distribución  está  agrupada  en 
intervalos  o  no. 
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2.4.1.  Gráficos  para  distribuciones  no  agrupadas  en  intervalos 

Retomemos  el  ejemplo  que  vimos  al  construir  las  tablas  de  frecuencias,  en  el  que  los 
valores  observados  de  una  variable,  A",  fueron  los  siguientes: 


18 

20 

22 

19 

18 

20 

18 

19 

21 

20 

20 

21 

18 

20 

21 

19 

20 

21 

18 

20 

Para  representar  estos  datos  gráficamente,  podemos  utilizar: 


Gráfico  de  barras: 

Este  tipo  de  gráfico,  se  utiliza  para  representar  valores  o  frecuencias.  Podemos  repre¬ 
sentar: 

■  para  cada  caso,  el  valor  observado  de  la  variable. 

■  para  cada  valor  de  la  variable,  su  frecuencia. 

En  la  primera  situación,  para  un  sistema  de  ejes  coordenados,  dibujamos  sobre  el  eje 
horizontal  cada  uno  de  los  casos  y  levantamos,  para  cada  uno  de  estos  valores,  una  barra 
cuya  altura  será  igual  al  valor  observado  de  la  variable  en  ese  caso. 


Se  suele  utilizar  para  representar  valores  de  una  variable  cuando  podemos  identificar 
los  casos. 


Por  ejemplo: 
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Si  sabemos  que  la  población  de  las  provincias  aragonesas  (1  de  enero  de  2008)  es  la 
siguiente: 


Provincia 

Población 

Zaragoza 

955323 

Huesca 

225271 

Teruel 

146324 

1a,  podemos  mostrar  en  el  siguiente  gráfico: 


Este  gráfico  nos  informa  sobre  los  valores  de  la  variable  para  cada  caso,  por  lo  que  es 
interesante  para  mostrar  1a,  información,  pero  no  sirve  para  resumir  la  información. 


El  gráfico  de  barras  es  uno  de  los  más  usados  para  representar  las  frecuencias: 

Sobre  un  sistema  de  ejes  dibujaremos  en  el  eje  horizontal  los  distintos  valores  de  la 
variable  y  en  el  eje  vertical  la  frecuencia  de  cada  uno  de  ellos.  Para  cada  valor  de  la 
variable,  en  el  eje  horizontal  se  levanta  una  barra  cuya  altura  será  igual  a  su  frecuencia 
absoluta,  o  a  la  frecuencia  absoluta  acumulada. 

Estos  gráficos  también  se  pueden  hacer  con  los  porcentajes  -frecuencias  relativas  mul¬ 
tiplicadas  por  100-.  En  ese  caso  solo  cambia  la  escala  ya  que  la,  forma  del  gráfico  queda 
exactamente  igual. 


Xi 

nt 

fi 

Fi 

18 

5 

5 

5/20 

5/20 

19 

3 

8 

3/20 

8/20 

20 

7 

15 

7/20 

15/20 

21 

4 

19 

4/20 

19/20 

22 

1 

20 

1/20 

1 
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Para  representar  frecuencias  relativas  también  es  muy  útil  el: 


Gráfico  de  sectores 


Es  un  gráfico  en  el  que  el  área  de  cada  sector  representa  la  frecuencia  relativa  de  cada 
valor  de  la  variable,  respecto  al  total. 

Es  útil  para  visualizar  las  diferencias  de  las  frecuencias,  entre  las  distintas  categorías. 


Gráfico  circular  de  X 
22;  1 ;  5% 


21;  4;  20% 


1 8;  5;  25% 


1 9;  3;  1 5% 


20;  7;  35% 
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2.4.2.  Gráficos  para  distribuciones  agrupadas 

Histograma 

Cuando  tenemos  distribuciones  agrupadas,  sobre  el  eje  horizontal  se  dibujan  los  inter¬ 
valos  y  sobre  cada  uno  de  ellos  se  levanta  un  rectángulo  cuya  área  sea  proporcional  a  la 
frecuencia  absoluta  dentro  del  intervalo. 

Como  ya  hemos  comentado,  el  número  de  intervalos  y  su  amplitud,  quedan  a  criterio 
del  investigador. 

IMPORTANTE:  si  todos  los  intervalos  tienen  la  misma  amplitud,  las  alturas  de  los 
rectángulos  pueden  ser  iguales  a  la  frecuencia  absoluta,  pero  si  hay  intervalos  de  distinta 
amplitud  (a¿),  entonces  las  alturas  (h¿)  se  calculan  dividiendo  la  frecuencia  absoluta  por 
la  amplitud: 

TI  • 

h¿  =  — ,  que  es  lo  que  se  llama  densidad  de  frecuencia. 

cii 

Por  ejemplo,  en  el  caso  de  las  notas  en  Selectividad  de  225  estudiantes  (página  10): 


selectividad 

(intervalos  de  amplitud  0'96,  desde  el  mínimo  hasta  el  máximo  valor  observado) 


También  se  pueden  representar  las  frecuencias  acumuladas  con  el  Histograma  de  fre¬ 
cuencias  acumuladas  o  gráfico  de  escalera: 
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Este  gráfico  sólo  tiene  sentido  para  intervalos  de  la  misma  amplitud. 


Histograma  de  datos  categóricos 

En  algunas  ocasiones  el  histograma  también  se  utiliza  para  representar  la  frecuencia 
(absoluta,  relativa  o  acumulada)  de  cada  uno  de  los  valores  observados  de  la  variable, 
como  si  fuese  un  gráfico  de  barras. 


Para  los  datos  del  ejemplo  cuya  tabla  de  frecuencias  construimos  en  la  página  20: 


2.5.  Medidas  de  una  variable  cuantitativa 

Como  se  ha  comentado,  para  hacer  manejable  la  masa  de  datos  procedentes  de  la 
observación  estadística,  es  necesario  reducir  el  volumen  de  los  datos;  hemos  visto  que  esto 
se  puede  conseguir  construyendo  la  tabla  de  distribución  de  frecuencias. 

En  el  caso  de  las  variables  cuantitativas,  es  posible  reducir  aún  más  estas  distribucio¬ 
nes,  valiéndonos  de  unos  pocos  números  que  describan  o  caractericen  a  las  distribuciones 
de  frecuencias.  Estos  números,  que  reciben  el  nombre  de  características,  nos  indican  los 
rasgos  más  importantes  de  las  distribuciones  de  frecuencias  y  se  suelen  clasificar  en  los 
siguientes  grupos: 


1.  Medidas  de  posición.  Estos  a  su  vez  se  dividen  en: 

■  Centrales:  media  aritmética,  mediana  y  moda. 

■  No  centrales:  cuantiles. 

2.  Medidas  de  dispersión. 

3.  Medidas  de  asimetría. 

4.  Medidas  de  apuntamiento. 


Vamos  a  analizarlas  detenidamente. 


2.6.  MEDIDAS  DE  POSICION 
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2.6.  Medidas  de  posición 

Las  medidas  de  posición,  son  unos  valores  alrededor  de  los  cuales  se  agrupan  los  valores 
de  la  variable,  y  que  nos  resumen  la  posición  de  la  distribución  sobre  el  eje  horizontal. 

Existen  dos  tipos  de  medidas  de  posición:  las  centrales  y  las  no  centrales. 

De  las  medidas  de  posición  central  o  promedios,  las  más  utilizadas  son:  la  media 
aritmética,  la  mediana  y  la  moda. 

Las  medidas  de  posición  no  central  son  los  cuantiles. 


2.6.1.  La  media  aritmética 

La  media  aritmética:  se  define  como  la  suma  de  todos  los  valores  observados  de  la 
distribución,  dividida  por  el  número  total  de  observaciones. 

Si  agrupamos  los  valores  que  se  repiten,  la  expresión  de  la  media  es: 

_  _  =i  xini  _  H - b  xknk 

X  ~  Ñ  ~~  Ñ 

Este  es  el  promedio  más  utilizado  en  la  práctica  y  esto  es  así  por  las  ventajas  que  tiene 
y  qne  son  fundamentalmente: 

■  Tiene  en  cuenta  todos  los  valores  observados. 

■  Es  fácil  de  calcular  y  tiene  un  claro  significado  estadístico. 

■  Es  única. 

Por  otra  parte  tiene  el  inconveniente  de  la  influencia  que  ejercen  los  valores  extremos 
de  la  distribución  sobre  ella. 


Propiedades 

1.  La  suma  de  las  desviaciones  (diferencias  con  el  correspondiente  signo)  de  los  valores 
de  la  variable,  respecto  a  su  media  aritmética,  es  igual  a  cero. 

En  efecto: 

k  k  k 

—  x)ni  —  xini  —  x  ni  —  Nx  —  Nx  =  0 

i= 1  2—1  2—1 

2.  Si  tenemos  que  =  a  +  bxi  ,  siendo  a  y  b  valores  cualesquiera,  con  b  distinto  de  cero 
(lo  que  equivale  a  hacer  un  cambio  de  origen  y  escala),  la  media  aritmética  puede 
expresarse  de  la  forma  siguiente:  u  =  a  +  bx 
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Comprobarlo  es  muy  sencillo: 

■y  k  i  k  i  k  i  k 

u  =  UiHi  =  Ñ  +  bX^n,:  =  aÑ  S  Tk  +  bÑ  XiUi  = 

Í=  1  Í=  1  2=1  2=1 

iV  i  A  , 

=  a—  +  b—  >  x,n,  =  a  +  bx 
N 

2=1 

Esta  propiedad,  eligiendo  convenientemente  los  valores  a  y  6,  es  de  gran  utilidad  en 
muchos  casos,  para  simplificar  el  cálculo  de  la  media  aritmética. 

3.  Si  en  una  distribución  de  frecuencias  se  clasifican  las  observaciones  en  dos  grupos 
mutuamente  excluyentes,  la  media  aritmética  de  todo  el  conjunto  se  relaciona  con 
las  medias  aritméticas  de  los  subconjuntos  parciales,  de  la  siguiente  forma: 


x  = 


xiiVi  +  x2N2 

Ñ 


donde: 


■  x=  media  del  conjunto  total. 

■  N=  número  de  observaciones  del  conjunto  total. 

■  x i  =media  del  primer  subconjunto. 

■  Ni—  número  de  observaciones  del  primer  subconjunto. 

■  X2=media  del  segundo  subconjunto. 

■  N2=  número  de  observaciones  del  segundo  subconjunto. 

■  y  naturalmente,  se  verifica  que  N  =  Afi  +  N2 

Esta  propiedad  se  puede  generalizar  para  el  caso  de  dividir  la  población  total  en  p 
subconjuntos  mutuamente  excluyentes.  Es  decir: 

X\N\  +  x2N2  +  •  •  •  +  XpN„ 

X  =  Ñ 

En  donde  se  cumple  que:  N  =  Afi  +  N2  +  •  •  •  +  Np 


2.6.2.  La  moda 

En  una  distribución,  la  moda  (Mo)  se  define  como  «aquel  valor  de  la  variable  cuya 
frecuencia  no  es  superada  por  la  frecuencia  de  ningún  otro  valor».  Esta  definición  corres¬ 
ponde  a  la  denominada  moda  absoluta.  La  moda  relativa  se  define  como  «el  valor  de  la 
variable  cuya  frecuencia  no  es  superada  por  la  de  sus  valores  contiguos». 

Puede  darse  el  caso  de  que  la  máxima  frecuencia  corresponda  a  dos  o  más  valores  de 
la  variable,  en  ese  caso  las  distribuciones  reciben  el  nombre  de  bimodales  o  multimodales. 
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distribución 

bimodal 


En  una  distribución  no  agrupada  en  intervalos,  la  determinación  de  la  moda  absoluta 
y  las  modas  relativas  es  inmediata. 

En  una  distribución  agrupada  en  intervalos  la  determinación  con  exactitud  de  la  moda 
es  imposible,  por  lo  que  se  suelen  hacer  algunas  suposiciones  para  poder  calcular  este  valor. 

Un  criterio  válido  es  tomar  como  moda  la  marca  de  clase  del  intervalo  modal,  entonces, 
para  calcular  la  moda  hay  que  hacer  lo  siguiente: 

Io)  Determinar  cuál  es  el  intervalo  modal.  El  intervalo  modal  es  aquel  que  tiene  mayor 
densidad  de  frecuencia  (en  el  caso  de  que  todos  los  intervalos  tengan  la  misma  amplitud 
coincide  con  el  intervalo  en  el  que  hay  mayor  frecuencia  absoluta). 

2o)  La  moda  será,  entonces,  la  marca  de  clase  de  este  intervalo. 

2.6.3.  La  mediana 

Para  una  distribución  discreta  no  agrupada  en  intervalos,  se  define  la  mediana  (Me), 
como  el  valor  de  la  variable  que  ocupa  el  lugar  central,  supuestos  ordenados  los  valores 
de  menor  a  mayor.  También  se  puede  definir  como  el  valor  de  la  variable  que  divide  a  la 
distribución  en  dos  partes  con  el  mismo  número  de  observaciones. 

Si  el  número  de  observaciones  es  impar,  entonces  el  valor  de  la  mediana  es  inmediato 
(el  valor  que  ocupe  el  lugar  ^±1). 

Si  el  número  de  datos  es  par,  suele  tomarse  como  valor  de  la  mediana,  la  media 
aritmética  de  los  dos  valores  centrales,  es  decir,  de  los  que  ocupan  los  lugares  |y|  +  l. 
Naturalmente  cuando  estos  dos  valores  son  iguales,  la  mediana  coincide  con  el  valor  común. 

En  el  supuesto  de  una  distribución  agrupada  en  intervalos,  la  mediana  será  alguno 
de  los  valores  contenidos  en  el  intervalo  al  que  corresponda  una  frecuencia  acumulada 

inmediatamente  superior  a  el  cual  se  denomina  intervalo  mediano. 

No  podemos  determinar  exactamente  cuál  de  los  valores  del  intervalo  es  la  media¬ 
na,  y  se  pueden  seguir  varios  criterios  para  elegir  uno  de  ellos.  Por  simplificar  nosotros 
tomaremos  como  mediana,  la  marca  de  clase  del  intervalo  mediano. 

Propiedad: 

La  mediana  no  depende  de  los  valores  extremos  y  por  tanto,  puede  calcularse  aún 
cuando  estos  se  desconozcan;  basta  con  conocer  su  frecuencia. 
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Ejemplos: 


Xi 

Ni 

1 

10 

10 

2 

12 

22 

3 

7 

29 

4 

7 

36 

5 

3 

39 

39+1 

2 


20  luego,  Me=2 


Xi 

Ni 

1 

10 

10 

2 

12 

22 

3 

7 

29 

4 

8 

37 

5 

3 

40 

f  =  20  y  f  +  1  =  21 
luego,  Me=2 


Xi 

rii 

N 

1 

10 

10 

2 

10 

20 

3 

7 

27 

4 

8 

35 

5 

5 

40 

f  =  20  y  f  +  1  =  21 
luego,  Me=^  =  2.5 


(jí— i?  y 

Tii 

N 

10-11 

10 

10 

11-12 

12 

22 

12-13 

12 

34 

13-14 

10 

44 

14-15 

7 

51 

Y  =  25.5  =>■  Intervalo  mediano  12-13 
Me=marca  de  clase  del  intervalo  mediano  =  12+ —  =  12.5 


Relación  entre  la  media  aritmética,  la  mediana  y  la  moda 

En  realidad  estos  tres  promedios  no  deben  emplearse  de  forma  excluyente.  Cada  uno 
tiene  su  significado  y  se  relacionan  con  aspectos  diferentes  de  la  distribución.  No  obstante 
existe  cierta  relación  entre  ellos  que  es  conveniente  saber. 

En  las  distribuciones  de  frecuencias  Normales  (se  estudiará  más  adelante),  coinciden 
exactamente  los  tres  promedios.  Si  la  distribución  es  acampanada  pero  no  presenta 
simetría,  la  mediana  está  situada  entre  la  moda  y  la  media  aritmética. 
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Si  la  asimetría  es  a  la  derecha:  Mo  <  Me  <  x 
Si  la  asimetría  es  a  la  izquierda:  x  <  Me  <  Mo 


2.6.4.  Medidas  de  posición  no  central 

Además  de  las  medidas  de  posición  centrales  vistas  hasta  ahora,  existen  otros  valores, 
no  centrales,  que  pueden  considerarse  como  indicadores  de  una  determinada  posición  en 
la  distribución. 

Estos  valores,  llamados  generalmente  cuantiles,  constituyen  una  generalización  del 
concepto  de  la  mediana. 

Así  como  la  mediana  divide  a  la  distribución  en  dos  partes,  cada  una  con  el  mismo 
número  de  observaciones  que  la  otra,  si  dividimos  la  distribución  en  cuatro  partes,  cada 
una  de  ellas  con  el  mismo  número  de  observaciones,  obtendremos  tres  valores,  que  se 
denominan  cuartiles. 

Análogamente,  si  dividimos  la  distribución  en  diez  partes  con  el  mismo  número  de 
observaciones,  obtendremos  nueve  valores,  que  se  denominan  deciles.  Y  si  la  dividimos 
en  cien  partes,  los  correspondientes  noventa  y  nueve  valores  se  denominan  percentiles. 

En  general,  los  q  —  1  valores  que  dividen  a  la  distribución  en  q  partes  con  el  mismo 
número  de  observaciones  se  denominan  cuantiles  de  orden  q. 

La  determinación  de  los  cuantiles  en  una  distribución  no  agrupada  en  intervalos,  es 
análoga  a  la  de  la  mediana. 


■  En  general,  el  r-ésimo  cuantil  de  orden  q,  será  aquel  valor  de  la  variable  al  cual 

rN 

corresponde  una  frecuencia  acumulada  inmediatamente  superior  a  - . 

Q 


■  Por  ello,  el  cuantil  r-ésimo  de  orden  q  será  el  valor  de  la  variable  que  ocupa  el  lugar 

-(iV  —  1)  +  1. 

Q 


Cuando  se  trate  de  una  distribución  agrupada  en  intervalos,  ya  sabemos  que  no  vamos 
a  poder  calcular  el  valor  exacto,  pero  lo  podemos  aproximar  tomando  la  marca  de  clase 
del  intervalo  en  el  que  se  encuentra  el  cuantil  correspondiente,  y  que  es  el  primer  intervalo 

con  frecuencia  acumulada  mayor  q„e  ^ 

q 

Por  ejemplo,  los  valores  que  encierran  el  70  %  central  de  la  distribución  serán  los 
percentiles:  15  y  85. 
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2.7.  Medidas  de  dispersión 


Las  medidas  de  posición  que  acabamos  de  estudiar  tienen  como  misión,  no  solo  situar 
la  distribución  en  el  eje  real,  sino  además  sintetizar  la  información  que  proporciona  la 
distribución. 

El  promedio  con  el  que  representamos  una  distribución  llevará  a  cabo  esta  misión  con 
mayor  o  menor  fidelidad  dependiendo  de  la  relación  que  exista  entre  los  valores  de  la 
variable  y  el  promedio. 

Así,  si  todos  los  valores  fueran  iguales,  la  media,  por  ejemplo,  coincidiría  con  todos 
ellos  por  lo  que  representaría  fielmente  a  la  distribución. 

A  medida  que  los  valores  individuales  de  la  variable  difieran  del  promedio,  la  repre- 
sentatividad  de  este  será  cada  vez  menor. 

Por  ello,  para  evaluar  la  representatividad  de  un  promedio,  necesitamos  un  indicador 
que,  de  alguna  forma,  nos  cuantifique  el  grado  de  separación  de  los  valores  de  la  variable 
respecto  al  promedio  en  cuestión. 

En  este  apartado  estudiaremos  las  medidas  de  dispersión.  Hay  que  tener  en  cuenta 
que  existen  dos  tipos  de  medidas  de  dispersión:  las  absolutas  y  las  relativas. 


2.7.1.  Medidas  de  dispersión  absoluta 

Con  las  medidas  de  dispersión  absoluta  se  trata  de  medir  la  separación  que,  por  término 
medio,  existe  entre  los  distintos  valores  de  la  variable,  por  lo  que  serán  medidas  que 
vendrán  expresadas  en  la  misma  clase  de  unidades  que  la  variable. 

Las  principales  medidas  de  dispersión  absoluta  son: 


El  recorrido  o  rango 

El  recorrido  o  rango  o  amplitud  se  define  como  la  diferencia  entre  el  mayor  y  el 
menor  valor  de  la  variable.  Es  decir  :  Re  =  rriáx ay  —  mín xt  =  Xk  —  X\ 

Si  tenemos  dos  conjuntos  de  individuos  en  los  que  estamos  estudiando  la  característica 
«peso»,  si  el  recorrido  del  primer  conjunto  es  Re(l)=  10  kg  y  el  del  segundo  es  Re(2)=5 
kg,  podemos  considerar  que  la  primera  población  tiene  mayor  dispersión  absoluta  que  la 
segunda. 

El  inconveniente  de  esta  medida  es  que  solo  tiene  en  cuenta  los  valores  extremos. 


La  varianza 

De  todas  las  medidas  de  dispersión  absoluta,  la  varianza  y  su  raíz  cuadrada,  la  des¬ 
viación  típica,  son  las  más  importantes. 
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Hasta  ahora,  al  hablar  de  dispersión  absoluta,  no  nos  hemos  referido  a  la  solución  que 
parece  más  simple:  promediar  las  desviaciones  respecto  a  la  media  aritmética,  con  el  signo 


correspondiente.  Es  decir,  considerar  la  suma 


£i=i< 


Xi 


propiedades  de  la  media,  esta  suma  es  nula 


N 

Y!¡=Axí-x) 


N 


-,  pero  como  ya  vimos  en  las 
=  o']  y  es  por  esto  por  lo  que 


no  podemos  utilizarla  como  medida  de  dispersión. 


Ahora  bien,  si  esta  suma  es  igual  a  cero  es  porque  las  desviaciones  positivas  compen¬ 
san  exactamente  las  negativas,  por  lo  que,  podemos  eliminar  el  problema  utilizando  una 
potencia  par  de  las  desviaciones. 


De  todas  las  potencias  pares,  elegimos  la  más  sencilla,  y  surge  así  la  nueva  medida  de 
dispersión  denominada  varianza,  que  definimos  como  la  media  aritmética  de  los  cuadrados 
de  las  desviaciones  de  los  valores  observados  de  la  variable  respecto  a  la  media  aritmética 
de  la  distribución.  Se  representa  por  S/2  y  es: 


g/2 


N 


Evidentemente,  el  valor  numérico  de  S/2  describe  el  mayor  o  menor  grado  de  dispersión 
de  la  distribución  de  frecuencias  que  se  considere. 

En  general,  cuanto  más  dispersas  sean  las  observaciones,  mayores  serán  las  desviaciones 
respecto  a  su  media,  y  mayor  por  tanto,  el  valor  numérico  de  la  varianza. 

Propiedades: 


1.  La  varianza  nunca  puede  ser  negativa:  S/2  >  0 
Es  evidente  ya  que  es  una  media  de  cuadrados. 

2.  La  varianza  se  puede  calcular  (desarrollando  la  expresión  anterior)  como: 

Ek  2 

i=l  XiUi 


S'2  = 


N 


x2 


3.  La  varianza  no  se  altera  ante  un  cambio  de  origen.  Es  decir,  que  si  hacemos  el 
cambio:  U{  =  Xi  +  a,  la  varianza  de  la  variable  U,  es  la  misma  que  la  de  la  variable 
X. 

En  efecto:  como  u¿  =  Xi  +  a,  sabemos  que:  ü  =  x  +  a  y  por  lo  tanto:  u¿  —  u  =  —  x 

Elevando  al  cuadrado,  multiplicando  por  nl ,  sumando  para  todos  los  valores  de  i  y 
dividiendo  por  N,  tenemos  que: 


S  ,2(Í7)  = 


£?=i(uí 


u)2rii 


E¡Ui 


Xi 


x)2rii 


N 


N 


=  S/2(X) 


4.  Si  se  hace  un  cambio  de  origen  y  de  escala,  es  decir,  si  se  efectúa  el  cambio  de 
variable:  tq  =  a  +  bxi ,  las  varianzas  de  las  dos  variables  están  relacionadas  por  la 
expresión:  S,2(U)  =  b2S,2(X). 
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En  efecto:  si  hacemos  un  cambio  de  origen  y  de  escala  tenemos  que:  =  a  +  bxi  y 
entonces  u  =  a  +  bx,  restando  ambas  igualdades  tenemos  que  :  nt  —  ü  =  b(xi  —  x). 

Elevando  al  cuadrado,  multiplicando  por  n¿,  sumando  para  todos  los  valores  de  i  y 
dividiendo  por  N,  se  obtiene  como  resultado: 

q/2/rn  _  EiU (ui  -  u)2'ni  _  Eti  b2(D  -  ñ)2nj  _  ,2TLi {xj-xf  rii  _  2  /2 

N  N  N 


Ejemplos  de  cálculo  de  la  varianza: 


La  desviación  típica 

La  varianza  de  la  variable  viene  expresada  en  unidades  de  distinto  orden  qne  la  variable 
a  la  que  se  refiere.  Así,  si  la  variable  se  refiere  a  la  estatura,  expresada  en  centímetros,  la 
varianza  será  un  cierto  número  expresado  en  centímetros  cuadrados.  Esta  es  la  razón  por 
la  que,  para  obtener  una  medida  de  dispersión,  pero  expresada  en  las  mismas  unidades 
que  la  variable,  se  emplea  la  desviación  típica  o  desviación  estándar,  que  es  igual  a 
la  raíz  cuadrada  de  la  varianza,  con  signo  positivo.  Se  representa  por  S': 


S' 


Al  venir  expresada  en  las  mismas  unidades  qne  la  variable,  permite  su  comparación 
con  los  valores  de  la  variable. 

Las  propiedades  de  la  desviación  típica  se  deducen  fácilmente  de  las  de  la  varianza. 
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La  cuasivarianza 


Es  una  medida  muy  similar  a  la  varianza  (la  única  diferencia  para  el  cálculo  está  en 
el  denominador): 


,2_ZU*i-*)2ni 


= 


N  —  1 


y  es  muy  utilizada  en  Inferencia  Estadística. 


La  cuasidesviación  típica 


Es  la  raíz  cuadrada  positiva  de  la  cuasivarianza. 


S 


+ 


v^  = 


+1 


x i 


x)  rii 


N  —  1 


2.7.2.  Medidas  de  dispersión  relativa 

Con  las  medidas  de  dispersión  relativa,  se  trata  de  medir  la  dispersión,  con  indepen¬ 
dencia  de  la  clase  de  unidades  en  que  venga  expresada  la  variable.  Estas  medidas,  permiten 
comparar  la  dispersión  existente  en  dos  distribuciones,  cuyas  variables  vengan  expresadas 
en  distinta  clase  de  unidades. 

De  entre  las  medidas  de  dispersión  relativa,  llamadas  también  índices  de  dispersión, 
las  más  importantes  son: 


El  recorrido  relativo 

Se  define  como  el  cociente  entre  el  recorrido  de  la  variable  y  la  media  aritmética: 

Re 

K.r  =  — 
x 

Nos  indica  el  número  de  veces  que  el  recorrido  contiene  a  la  media  aritmética. 


El  coeficiente  de  variación  o  índice  de  dispersión  de  Pearson 

Es  el  más  empleado  de  los  índices  de  dispersión  relativos.  Se  designa  por  CV: 


Fl 

Este  número  nos  indica  el  número  de  veces  que  la  desviación  típica  contiene  a  la  media, 
o  lo  que  es  lo  mismo,  el  tanto  que  representa  S'  por  cada  unidad  de  x  (es  un  tanto  por 
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uno).  También  se  puede  interpretar  como  la  expresión  de  S'  empleando  como  unidad  de 
medida  la  media  aritmética. 

Tanto  en  la  determinación  de  la  desviación  típica  como  en  la  de  la  media,  se  utilizan 
todos  los  valores  de  la  distribución,  por  lo  que  es  el  índice  más  completo  de  los  que  venimos 
estudiando. 

Puesto  que  el  valor  mínimo  que  puede  tomar  S'  es  cero,  este  es  también  el  mínimo 
valor  (en  valor  absoluto)  que  puede  tomar  el  coeficiente  de  variación  y  que  corresponde 
al  caso  de  máxima  representatividad  de  la  media  aritmética. 

Para  dos  distribuciones  con  igual  dispersión  absoluta,  el  coeficiente  de  variación  es 
tanto  menor  cuanto  mayor  sea  la  media  aritmética. 

Ej.:  Desviación  típica  de  2  kg  en  el  peso  de  un  bebé  (media  7  kg)  y  en  el  peso  de  un 
adulto  (media  75  kg).  Los  coeficientes  de  variación  son,  respectivamente,  2/7  y  2/75. 

Por  último,  debemos  hacer  notar  que  este  coeficiente  no  está  definido  cuando  la  media 
aritmética  de  la  distribución  es  igual  a  cero. 


2.8.  Medidas  de  forma 


Ahora  vamos  a  completar  un  poco  más  el  análisis  de  una  distribución,  ya  que  con 
el  estudio  hecho  hasta  ahora,  lo  que  hacemos  es  globalizar  el  comportamiento  de  una 
variable  en  un  promedio  y  en  la  dispersión  respecto  a  ese  promedio,  dejando  de  lado  toda 
la  disparidad,  es  decir,  toda  la  variedad  del  comportamiento  de  la  variable,  fuera  de  la 
media. 

Esta  variedad  se  pone  de  manifiesto  cuando  representamos  gráficamente  la  distribu¬ 
ción. 

Pues  bien,  en  este  apartado  nos  vamos  a  referir  a  ciertas  medidas  que  nos  van  a  dar  una 
idea  de  la  forma  de  la  distribución,  sin  necesidad  de  realizar  su  representación  gráfica. 

La  forma  de  una  distribución  de  frecuencias  puede  ser  muy  variada. 

En  una  distribución  campaniforme  simétrica  coinciden  la  media,  la  mediana  y  la  moda 
y  estas  condiciones  sugieren  distribuciones  cuyas  frecuencias  absolutas  o  relativas  den 
lugar  a  representaciones  del  tipo: 


Una  curva  continua,  que  puede  servir  como  modelo  matemático  de  ambos  casos,  es  la 
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curva  Normal  de  Gauss,  que  tiene  la  forma  siguiente: 


o  o 

A - M - ► 


4 

M--cr  p.  g+a 


y  cuyas  características  son: 

1.  Es  simétrica. 

2.  Me  =  Mo  =  x 

3.  Tiene  como  expresión: 

1  _  (x~ 
f(x )  =  — ~¡=e  2, 

V  '  <j  y/2/rr 

donde  ¡i  es  la  media  y  a  es  la  desviación  típica. 


Evidentemente,  no  existe  en  la  realidad  ninguna  variable  cuya  distribución  de  frecuen¬ 
cias  relativas  dé  lugar  a  una  curva  así,  pero  se  puede  construir  un  modelo  matemático  o 
distribución  de  probabilidades  con  las  propiedades  citadas. 

Dicho  modelo  es  la  distribución  NORMAL  cuya  representación  gráfica  es  la  curva  de 
Gauss  y  éste  será  el  modelo  de  comparación  para  la  simetría  y  la  curtosis  de  cualquier 
distribución  de  frecuencias. 


2.8.1.  Medidas  de  simetría  y  asimetría 

Las  medidas  de  simetría  nos  permiten  establecer  un  indicador  del  grado  de  simetría 
o  asimetría  que  presenta  1a,  distribución,  sin  necesidad  de  llevar  a  cabo  su  representación 
gráfica. 

Diremos  que  una  distribución  es  simétrica  cuando  lo  es  su  representación  gráfica  en 
coordenadas  cartesianas.  Es  decir,  que  al  trazar  una  recta  paralela  al  eje  de  ordenadas 
por  el  punto  x,  existen  el  mismo  número  de  valores  Xi  a  ambos  lados  de  dicha  recta, 
equidistantes  y  a  los  que  corresponde  igual  frecuencia. 

Si  la  distribución  es  simétrica,  el  eje  de  simetría  de  su  representación  gráfica  será  una 
recta  paralela  al  eje  de  ordenadas  que  pasa  por  el  punto  cuya  abscisa  es  la  media  aritmética 
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(como  puede  comprobarse  al  recordar  la  primera  propiedad  de  la  media).  Por  ello,  cuando 
la  distribución  es  asimétrica,  se  suelen  comparar  los  valores  de  la  distribución  con  este 
promedio. 

Existen  varios  coeficientes,  A,  que  nos  permiten  determinar  la  simetría  o  el  grado  de 
asimetría  de  una  distribución,  pero  para  cualquiera  de  ellos  la  interpretación  es  la  misma: 


[\  /I 

P\  f 

"V 

A  <  0 

A  = 

=  0 

A  >  0 

asimétrica  a 

distribución 

asimétrica  a 

la  izquierda 

simétrica 

la  derecha 

Un  coeficiente  de  asimetría  muy  sencillo,  aunque  en  algunos  casos  bastante  impreciso, 
es  el  coeficiente  de  asimetría  de  Pearson: 

Basándose  en  el  hecho  de  que  en  una  distribución  simétrica  unimodal  se  verifica  que: 
x  =  Mo  =  Me,  Karl  Pearson  propuso  como  coeficiente  de  asimetría  el  siguiente: 

x  —  Mo 


Si  la  distribución  presenta  asimetría  positiva,  la  media  está  desplazada  a  la  derecha 
de  la  moda,  por  lo  que  se  verifica  que:  x  —  Mo  >  0. 

Por  el  contrario,  si  la  distribución  es  asimétrica  negativa,  x  —  Mo  <  0. 

Por  lo  tanto,  el  signo  de  A p  nos  indica  el  de  la  asimetría: 

-  Si  Ap  =  0,  la  distribución  es  simétrica 

-  Si  Ap  >  0,  la  distribución  es  asimétrica  positiva  (a  la  derecha) 

-  Si  Ap  <  0,  la  distribución  es  asimétrica  negativa  (a  la  izquierda) 

2.8.2.  Medidas  de  curtosis  o  apuntamiento 

Las  medidas  de  curtosis  se  aplican  a  distribuciones  campaniformes,  es  decir,  unimo- 
dales  simétricas  o  con  ligera  asimetría. 

En  esencia,  las  medidas  de  curtosis  tratan  de  estudiar  la  distribución  de  frecuencias 
en  la  «zona  central»  de  la  distribución. 
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La  mayor  o  menor  agrupación  de  frecuencias  alrededor  de  la  media  y  en  la  zona 
central  de  la  distribución,  dará  lugar  a  una  distribución  más  o  menos  apuntada.  Por  esta 
razón  a  las  medidas  de  curtosis  se  les  llama  también  de  «apuntamiento». 

Con  el  coeficiente  de  curtosis  se  trata  de  medir  el  grado  de  apuntamiento  de  una 
distribución  comparándolo  con  el  de  la  distribución  NORMAL. 

Existen  varios  coeficientes  que  nos  permiten  calcular  la  curtosis,  pero  en  todos  los 
casos  la  interpretación  es  la  misma: 

-  Si  K  =  0  ,  se  dice  que  la  distribución  es  mesocúrtica  (normal). 

-  Si  K  >  0  ,  la  distribución  es  lcptocúrtica  (más  apuntada  que  la  normal). 

-  Si  K  <  0  ,  la  distribución  es  platicúrtica  (menos  apuntada  que  la  normal). 


distribución 

Normal 


2.9.  Medidas  de  concentración 


En  el  cálculo  de  la  media  aritmética,  el  numerador  es  la  suma  de  todos  los  valores 
observados  de  la  variable. 

En  muchos  casos,  dicho  numerador  no  tiene  sentido  estadístico  claro,  por  ejemplo,  en 
una  distribución  de  alturas,  sería  la  suma  de  todas  las  alturas.  Pero  en  otros  casos,  en 
particular  cuando  se  trata  de  variables  de  carácter  socio-económico,  sí  que  lo  tiene:  así  en 
una  distribución  de  salarios,  el  numerador  de  la  media  aritmética  representaría  la  masa 
total  de  salarios. 

Pues  bien,  las  medidas  de  concentración  tienen  por  finalidad,  precisamente,  medir  la 
uniformidad  del  reparto  de  dicha  masa  total. 

Si  todos  los  trabajadores  perciben  el  mismo  salario,  la  uniformidad  de  dicho  reparto 
sería  absoluta.  Si,  por  el  contrario,  la  masa  total  fuese  percibida  por  un  solo  trabajador, 
entonces  la  falta  de  uniformidad  sería  total. 

En  general,  las  medidas  de  concentración  tratan  de  poner  de  relieve  el  mayor  o  menor 
grado  de  igualdad  en  el  reparto  de  la  suma  total  de  los  valores  de  la  variable. 

Son,  por  tanto,  indicadores  del  grado  de  equidistribución  de  la  variable. 

Para  calcularlas  habrá  que  relacionar  el  porcentaje  acumulado  de  frecuencias  (P,)  y  el 
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porcentaje  acumulado  del  total  de  la  variable  considerada  (Qi). 

Supongamos  la  siguiente  distribución  de  salarios  mensuales  en  euros. 


Xi 

ni 

XiHi 

Pi  =  fi 

Xi'íli 

Qi=  ^ 

>  Xifli 

Pi 

Qi 

800 

10 

8000 

10/50=0.2 

8000/80000=0.1 

0.2 

0.1 

1500 

20 

30000 

20/50=0.4 

30000/80000=0.375 

0.6 

0.475 

2000 

15 

30000 

15/50=0.3 

30000/80000=0.375 

0.9 

0.85 

2400 

5 

12000 

5/50=0.1 

12000/80000=0.15 

1 

1 

50 

80000 

(80000  es  la  masa  salarial  total). 

Los  datos  de  esta  tabla  representan: 


■  Pi,  son  las  frecuencias  relativas  de  trabajadores  (proporción  de  trabajadores  que 
están  en  cada  grupo,  respecto  al  total). 


■  Pj,  son  las  frecuencias  relativas  acumuladas  de  trabajadores  (proporción,  respecto 
al  total,  de  trabajadores  acumulados  comenzando  por  los  que  menos  ganan). 


■  q%,  masa  de  salario  qne  se  reparte  entre  los  miembros  de  la  clase  i-ésima,  relativa  a 
la  masa  salarial  total. 


■  Qi,  masa  de  salario  acumulado  hasta  la  clase  i-ésima,  comenzando  por  los  que  menos 
ganan,  relativa  a  la  masa  salarial  total. 


Si  ponemos  en  relación  las  columnas  Pt  y  Qt,  obtenemos  una  información  que  nos 
indica  el  reparto  de  los  salarios  poniéndonos  de  relieve  la  concentración  de  los  mismos. 

En  efecto,  ordenados  los  trabajadores  de  menor  a  mayor  salario,  resulta  que  el  20% 
de  los  trabajadores  se  reparte  el  10%  de  la  masa  salarial,  el  60%  de  los  trabajadores  el 
47.5%  del  dinero,... 


2.9.1.  La  curva  de  Lorenz 


La  curva  de  Lorenz  se  obtiene  representando  los  valores  P¿  y  Qi  ( Pi  en  el  eje  de  abscisas 
y  Qi  en  el  eje  de  ordenadas),  y  uniendo  mediante  líneas  rectas  cada  punto  (P¿,  Qi)  con  su 
consecutivo  y  además  (P\,Q\)  con  el  origen  .  La  dibujamos  en  tantos  por  ciento. 
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Si  el  reparto  hubiese  sido  equitativo,  el  10%  de  los  trabajadores  obtendría  el  10%  de 
la  masa  salarial;  el  20%  de  los  trabajadores,  el  20%  de  la  masa  salarial;  etc...  Es  decir 
P,¡  =  Qi,Vi,  con  lo  cual  la  curva  de  Lorenz  coincidiría  con  la  diagonal. 

Si,  por  el  contrario,  todos  los  trabajadores  percibiesen  el  0  %  de  la  masa  salarial  excepto 
uno  que  percibiese  el  100%,  entonces  la  curva  de  Lorenz  estaría  formada  por  los  lados 
inferior  y  derecho. 

En  general,  la  curva  de  Lorenz  es  siempre  convexa,  y  cuanto  más  convexa  es,  menos 
equitativa  es  la  distribución  (mayor  concentración);  mientras  que  cuanto  más  se  aproxima 
a  la  diagonal,  más  equitativa  es  la  distribución  (menor  concentración). 

Si  tomamos  el  área  encerrada  entre  la  diagonal  y  la  curva,  tenemos: 

1)  Si  Pj  =  Qi,Vi,  estamos  en  el  caso  de  mínima  concentración  o  máxima  igualdad. 
Área  =  0. 

2)  Si  un  solo  trabajador  percibiese  el  100%  de  la  masa  salarial,  estaríamos  en  el  caso 

de  máxima  concentración  o  mínima  igualdad.  Área  =  =  0.5 

Por  lo  tanto,  cuanto  más  se  acerque  a  cero  el  área,  tanto  menor  será  la  concentración 
y  el  grado  de  desigualdad  existente  en  el  reparto  del  total  de  la  variable  considerada. 


a 

2.9.2.  Indice  de  concentración  de  Gini 

Podemos  construir  un  indicador  del  grado  de  concentración,  comparando  el  área  en¬ 
cerrada  entre  la  curva  de  Lorenz  y  la  diagonal,  con  el  área  del  triángulo  inferior.  Esto  es 
lo  que  hace  el  índice  de  Gini. 

Como  el  triángulo  inferior  tiene  área  0.5,  el  índice  de  Gini  es  el  doble  del  área  com¬ 
prendida  entre  la  diagonal  y  la  curva  de  concentración.  (1^  =  =  2  x  Área). 

Para  evaluar  el  área  indicadora  del  grado  de  concentración,  basta  con  calcular  el  área  de 
los  distintos  triángulos  y  rectángulos  que  se  forman  utilizando  cualquier  método  conocido. 
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Se  puede  comprobar  que  el  índice  de  Gini  se  obtiene  exactamente  mediante  la  expre¬ 
sión: 


k 

1G  =  2^2  CÁ  ~  1,  donde  Pi  =  Pi-íP 

i=l 

Como  el  área  está  comprendida  entre  0  y  0.5  esto  significa  qne  el  índice  de  Gini 
está  comprendido  entre  0  y  1,  lo  qne  nos  permite  realizar  la  siguiente  interpretación: 

■  Ig  =  0:  No  existe  concentración  (máxima  equidad) 

■  le  bajo  (próximo  a  0):  Baja  concentración  (equidad  elevada) 

■  1(5  alto  (próximo  a  1):  Alta  concentración  (poca  equidad) 

■  1(5  =  1:  Máxima  concentración  (nula  equidad). 

Veamos  dos  ejemplos  de  cómo  calcularlo: 

Ejemplo  1 : 

Con  los  datos  del  ejemplo  anterior: 


p, 

Qi 

Pi 

qi 

Pi  =  Pi~- 
2 

qiP¿ 

10/50 

8000/80000 

10/50 

8000/80000 

5/50 

40000/(50  x  80000) 

30/50 

38000/80000 

20/50 

30000/80000 

20/50 

600000/(50  x  80000) 

45/50 

68000/80000 

15/50 

30000/80000 

37.5/50 

1125000/(50  x  80000) 

50/50 

80000/80000 

5/50 

12000/80000 

47.5/50 

570000/(50  x  80000) 

23335000/(50  x  80000)=0.58375 

Entonces: 


Ea  zoooüuuu 

q-iPi  -  1  =  2  x -  1  =  2  x  0.58375  -  1  =  0.1675 

y  50  x  80000 

Í= 1 

Lo  que  significa  que  hay  poca  concentración.  El  área  encerrada  entre  la  curva  de 
Lorenz  y  la  diagonal,  representa  un  16.75%  del  área  del  triángulo  inferior.  El  reparto  es 

equitativo. 

Ejemplo  2: 

Vamos  a  determinar  si  existe  concentración  en  el  reparto  de  los  salarios  que  se  dan  en 
la  siguiente  tabla: 


Si 

ni 

SíTli 

Pi 

qi 

Pi 

Pi 

QiPi 

600 

35 

21000 

35/90 

21/102 

35/90 

17.5/90 

367.5/(90  x  102) 

1200 

40 

48000 

40/90 

48/102 

75/90 

55/90 

2640/(90  x  102) 

1800 

10 

18000 

10/90 

18/102 

85/90 

80/90 

1440/(90  x  102) 

3000 

5 

15000 

5/90 

15/102 

90/90 

87.5/90 

1312.5/(90  x  102) 

Sumas 

90 

102000 

5760/(90  x  102)=0. 629676 
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Entonces: 

lG  =  2  x  0.629676  -  1  =  0.259352 

El  valor  obtenido  indica  qne  existe  concentración,  aunque  no  muy  grande,  ya 

que  el  área  encerrada  por  la  curva  de  Lorenz,  representa  un  25.94  %  del  área  del  triángulo 
inferior.  El  reparto  de  los  salarios  es  bastante  equitativo. 
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2.10.  Ejemplo  resuelto 


Vamos  a  realizar  un  análisis  estadístico  de  una  variable  unidimensional. 

Para  dirigir  el  análisis,  a  partir  de  los  datos  originales  iremos  respondiendo  a  una 
serie  de  preguntas  utilizando  los  estadísticos  adecuados  que  además  deberemos  interpretar 
correctamente. 

Supongamos  que  tenemos  la  siguiente  información  respecto  a  los  salarios  (en  euros) 
de  los  1500  trabajadores  de  una  gran  empresa: 


Salarios 

N°  de  trabajadores 

[1100, 1500] 

108 

(1500, 1700] 

377 

(1700, 1900] 

575 

(1900,2100] 

351 

(2100,2500] 

89 

1.  ¿Cuántos  trabajadores  cobran  entre  1500  y  1700  euros? 

2.  ¿Qué  porcentaje  de  los  trabajadores  de  la  empresa  cobran  entre  1900  y  2100  euros? 

3.  ¿Cuántos  trabajadores  cobran  más  de  1700  euros? 

4.  ¿Qué  proporción  representan  los  trabajadores  que  cobran  hasta  1900  euros? 

5.  Dibuja  un  histograma  que  represente  la  distribución  de  los  salarios  de  los  trabaja¬ 
dores  de  esta  empresa. 

6.  ¿Cuál  es  el  salario  más  habitual  en  esta  empresa? 

7.  ¿Qué  salario  no  es  superado  por  el  32.33%  de  los  trabajadores? 

8.  ¿Cuál  es  el  salario  medio  de  los  trabajadores  de  esta  empresa? 

9.  ¿Qué  desviación  típica  tienen  estos  salarios? 

10.  La  distribución  de  los  salarios  ¿es  homogénea? 

11.  Si  queremos  utilizar  el  salario  medio  como  representante  de  los  salarios  en  esta 
empresa,  ¿este  salario  medio  es  representativo? 

12.  Si  nos  dicen  que,  para  los  datos  de  esta  empresa,  el  coeficiente  de  asimetría  es  0.023 
y  que  el  coeficiente  de  curtosis  es  -0.120,  ¿qué  podemos  decir  respecto  a  la  forma  de 
la  distribución? 

13.  El  reparto  de  los  salarios  en  esta  empresa  ¿es  equitativo? 

14.  ¿Qué  porcentaje  de  la  masa  salarial  se  reparten  el  32.33  %  de  los  trabajadores  que 
menos  ganan? 
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15.  ¿Qué  porcentaje  de  los  trabajadores  que  menos  ganan  se  reparten  el  66.23%  de  la 
masa  salarial? 


Solución. 


Incluimos  aquí  una  tabla  cuyas  columnas  iremos  construyendo  a  medida  que  las  nece¬ 
sitamos  para  responder  a  las  distintas  preguntas. 


Salarios 

Si 

rii 

Ni 

fi 

Fi 

di 

hi  =  — 

L  CLi 

SiTli 

ñni 

[1100, 1500] 

1300 

108 

108 

0.072 

0.072 

400 

0.27 

140400 

182520000 

(1500, 1700] 

1600 

377 

485 

0.2513 

0.323 

200 

1.885 

603200 

965120000 

(1700, 1900] 

1800 

575 

1060 

0.3833 

0.706 

200 

2.875 

1035000 

1863000000 

(1900,2100] 

2000 

351 

1411 

0.234 

0.9406 

200 

1.755 

702000 

1404000000 

(2100,2500] 

2300 

89 

1500 

0.0593 

1 

400 

0.2225 

204700 

470810000 

1500 

2685300 

4885450000 

1.  ¿Cuántos  trabajadores  cobran  entre  1500  y  1700  euros? 

Nos  preguntan  cuántos  trabajadores  tienen  un  salario  cuyo  valor  está  dentro  de  este 
intervalo,  por  lo  tanto  son:  377  trabajadores. 

2.  ¿Qué  porcentaje  de  los  trabajadores  de  la  empresa  cobran  entre  1900  y  2100  euros? 

Un  porcentaje  es  una  frecuencia  relativa  (proporción)  multiplicada  por  100,  por  lo 
tanto,  serán 

351 

- x  100  =  0.234  x  100  =  23.4% 

1500 

3.  ¿Cuántos  trabajadores  cobran  más  de  1700  euros? 

Para  responder  a  esta  pregunta  podemos  utilizar  las  frecuencias  absolutas  acumula¬ 
das.  Los  trabajadores  que  cobran  más  de  1700  euros  son  todos  menos  los  que  cobran 
un  salario  menor  o  igual  a  dicha  cantidad. 

N  -  N2  =  1500  -  485  =  1015 

4.  ¿Qué  proporción  representan  los  trabajadores  que  cobran  hasta  1900  euros? 

Nos  piden  la  proporción  (frecuencia  relativa)  acumulada  de  trabajadores  cuyos  sa¬ 
larios  no  superan  los  1900  euros. 

F3  =  0.706 

5.  Dibuja  un  histograma  que  represente  la  distribución  de  los  salarios  de  los  trabaja¬ 
dores  de  esta  empresa. 

En  un  histograma  las  áreas  de  los  rectángulos  deben  ser  proporcionales  a  las  fre¬ 
cuencias  absolutas  correspondientes.  En  nuestro  caso  los  intervalos  tienen  distinta 
amplitud,  por  lo  que  las  alturas  deben  ser  las  densidades  de  frecuencia  (de  este 
modo:  área=  a¿/z¿  =  nl) 
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6.  ¿Cuál  es  el  salario  más  habitual  en  esta  empresa? 

Nos  están  preguntando  por  la  moda.  Primero  buscamos  el  intervalo  modal,  que  es 
aquel  en  el  que  hay  mayor  densidad  de  frecuencia:  (1700,1900].  Entonces,  según  el 
criterio  que  estamos  utilizando,  la  moda  será  la  marca  de  clase  de  este  intervalo: 
Mo=1800. 

7.  ¿Qué  salario  no  es  superado  por  el  32.33  %  de  los  trabajadores? 

Buscamos  el  salario  tal  que  el  porcentaje  de  trabajadores  con  un  salario  inferior  es 
del  32.33%. 

Tenemos  que  la  frecuencia  relativa  acumulada  hasta  1700  es  0.3233,  por  lo  tanto,  el 
salario  que  estamos  buscando  es:  1700  euros. 

8.  ¿Cuál  es  el  salario  medio  de  los  trabajadores  de  esta  empresa? 

Para  calcular  la  media,  como  tenemos  intervalos  y  necesitamos  utilizar  valores  con¬ 
cretos  de  la  variable,  utilizaremos  las  marcas  de  clase  (son  valores  que  representan 
a  todas  las  observaciones  que  se  encuentran  en  cada  intervalo).  Entonces: 

1  . k  '  1 

s  =  —  Sjjij,  = - 2685300  =  1790.2  euros 

N^  1500 

i=  1 

9.  ¿Qué  desviación  típica  tienen  estos  salarios? 

Procediendo  de  forma  análoga  al  cálculo  de  la  media,  calculamos  primero  la  varianza: 

1  fe  i 

S'2  =  —  V  shii  -  s2  =  - 4885450000  -  (1790.2)2  =  52150.626 

N^  1  1500  V  ; 

2—1 

entonces,  la  desviación  típica  es: 


S'  =  \/52150.626  =  228.365117  euros 


2.10.  EJEMPLO  RESUELTO 
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10.  La  distribución  de  los  salarios  ¿es  homogénea? 

Para  estudiar  la  homogeneidad  (lo  parecidos  que  son  entre  sí  los  salarios),  estudia¬ 
remos  la  dispersión  relativa. 


CV  = 


& 

s 


228.3651 

1790.2 


0.12756 


El  coeficiente  de  variación  es  muy  pequeño  (está  muy  próximo  a  cero),  por  lo  que 
existe  muy  poca  dispersión  relativa.  Eso  indica  que  la  distribución  de  los  salarios  es 
muy  homogénea. 


11.  Si  queremos  utilizar  el  salario  medio  como  representante  de  los  salarios  en  esta 
empresa,  ¿este  salario  medio  es  representativo? 

Sí,  porque  al  haber  poca  dispersión  relativa  esto  significa  que  los  salarios  tienen  poca 
dispersión  respecto  a  la  media.  Es  decir  que  son  muy  parecidos  entre  sí  y  parecidos 
a  la  media.  Por  lo  tanto,  podemos  usar  la  media  como  representante  de  los  salarios 
de  la  empresa. 


12.  Si  nos  dicen  que,  para  los  datos  de  esta  empresa,  el  coeficiente  de  asimetría  es  0.023 
y  que  el  coeficiente  de  curtosis  es  -0.120,  ¿qué  podemos  decir  respecto  a  la  forma  de 
la  distribución? 

Hemos  visto,  al  hacer  el  histograma  que  la  distribución  es  campaniforme,  por  lo 
tanto,  con  estos  coeficientes  podemos  añadir  que  también  es  ligeramente  asimétrica 
a  la  derecha  (muy  poco)  y  ligeramente  platicúrtica. 

13.  El  reparto  de  los  salarios  en  esta  empresa  ¿es  equitativo? 

Para  analizar  si  un  reparto  es  equitativo  tenemos  que  estudiar  si  existe  concentración 
en  el  reparto,  y  para  ello  tendremos  que  calcular  el  índice  de  Gini  o  dibujar  la  curva 
de  Lorenz.  Vamos  a  hacer  ambas  cosas. 


k 

Ig  =  2  ^2  (L.Pi  ~  1 

i=  1 

Vamos  a  construir  una  tabla  con  los  cálculos: 


Si 

n-i 

SiTli 

Vi 

Qi 

Pi 

Pl 

Qi-Pi 

1300 

108 

140400 

108/N 

140400/S 

108/N 

54/N 

7581600/(iV  x  S) 

1600 

377 

603200 

377/N 

603200/S 

485/N 

296.5/N 

1 78848800/ (./V  x  S ) 

1800 

575 

1035000 

575/N 

1035000/S 

1060/N 

772.5/N 

799537500/ (./V  x  S) 

2000 

351 

702000 

351/N 

702000/S 

1411/N 

1235.5/N 

867321000/(V  x  S) 

2300 

89 

204700 

89/N 

204700/S 

1500/N 

1455. 5/N 

297940850/(V  x  S) 

Sumas 

1500=N 

2685300=S 

2151229750 /(N  x  S ) 

Entonces: 


2151229750 
1500  x  2685300 


0.06815 


Hay  muy  poca  concentración.  El  reparto  es  muy  equitativo. 
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Vamos  a  resolverlo  dibujando  la  curva  de  Lorenz.  Construimos  una  tabla  con  los 
valores  de  Pt  y  de  Qi  y  dibujamos  el  gráfico  correspondiente. 


Pi 

Qi 

0.072 

0.0523 

0.323 

0.2246 

0.706 

0.6623 

0.941 

0.9238 

1 

1 

Como  vemos,  el  área  que  queda  entre  la  curva  y  la  diagonal  es  muy  pequeña  (el 
índice  de  Gini  nos  indica  que  es  menos  de  un  7%  del  área  del  triángulo  inferior), 
por  lo  tanto  hay  muy  poca  concentración.  El  reparto  es  muy  equitativo. 

14.  ¿Qué  porcentaje  de  la  masa  salarial  se  reparten  el  32.33  %  de  los  trabajadores  que 
menos  ganan? 

Esta  pregunta  se  puede  responder  con  la  tabla  que  hemos  construido  en  el  apartado 
anterior  ya  que  nos  piden  relacionar  proporciones  acumuladas  de  trabajadores  (P¿) 
y  proporciones  acumuladas  de  masa  salarial  (Qi) 

El  32.33  %  de  los  trabajadores  que  menos  ganan  corresponden  a  P¿  =  0.323,  y  a  ellos 
les  corresponde  una  masa  salarial  acumulada  de  Qt  =  0.2246,  es  decir,  un  22.46  % 
de  la  masa  salarial  total. 


15.  ¿Qué  porcentaje  de  los  trabajadores  que  menos  ganan  se  reparten  el  66.23%  de  la 
masa  salarial? 

Esta  pregunta  se  responde  de  forma  análoga  a  la  anterior. 

El  66.23  %  de  la  masa  salarial  ( Qi  =  0.6623)  corresponde  a  una  proporción  acumu¬ 
lada  de  trabajadores  P,:  =  0.706,  es  decir,  al  70.6%  de  los  trabajadores  que  menos 
ganan. 


Tema  3 


Números  índices 


En  el  tema  anterior  vimos  cómo  describir  perfectamente  una  variable  cuantitativa,  o  lo 
que  es  lo  mismo,  cómo  describir  para  la  población  estudiada,  su  comportamiento  respecto 
a  una  determinada  característica.  Sin  embargo,  hay  situaciones  que  por  sus  características 
particulares  no  se  pueden  describir  de  este  modo.  Esto  es  lo  que  ocurre,  por  ejemplo,  con 
la  evolución  de  las  magnitudes  económicas. 

Ciertas  magnitudes  económicas  suelen  variar  en  el  tiempo  o  en  el  espacio  (niveles  de 
precios,  de  salarios,  etc...),  por  lo  que  surge  la  necesidad  de  cuantificar  estas  variaciones 
para  así  disponer  de  una  medida  objetiva  de  la  importancia  de  dichas  variaciones. 

Así,  por  ejemplo,  nos  puede  interesar  la  variación  en  los  precios  de  la  vivienda  y 
analizar  cómo  ha  ido  variando  a  lo  largo  de  los  últimos  años,  respecto  a  un  año  concreto. 
O  nos  interesa  la  evolución  de  los  salarios  a  partir,  por  ejemplo,  de  2008. 

Por  otra  parte,  en  unas  ocasiones  nos  interesarán  las  variaciones  de  una  magnitud  (pre¬ 
cio  de  la  gasolina)  y  en  otras  las  de  un  conjunto  de  magnitudes  (precio  de  los  carburantes). 
Pues  bien,  esta  es  la  cuestión  que  vamos  a  tratar  en  este  tema. 

Definición:  Llamaremos  números  índices  a  unas  medidas  estadísticas  que  sirven 
para  comparar  una  magnitud  o  un  grupo  de  magnitudes  en  dos  situaciones,  una  de  las 
cuales  se  considera  de  referencia.  La  comparación  se  puede  efectuar  en  el  tiempo  o  en  el 
espacio. 

Los  índices  que  vamos  a  estudiar  van  a  referirse  generalmente  a  la  evolución  de  una 
magnitud  en  el  tiempo.  Así,  a  la  situación  inicial  la  llamaremos  PERÍODO  BASE  O 
PERÍODO  DE  REFERENCIA  y  a  la  situación  que  queremos  comparar  PERÍODO  AC¬ 
TUAL. 

La  teoría  de  los  números  índices  se  ha  desarrollado  fundamentalmente  para  el  estudio 
de  las  variaciones  de  los  precios,  precisamente  para  tratar  de  medir  el  nivel  general  de 
precios,  e  inversamente:  el  poder  adquisitivo  del  dinero. 

Los  números  índices  podemos  clasificarlos  en: 


■  Números  índices  simples. 
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■  Números  índices  compuestos. 

•  No  ponderados. 

•  Ponderados. 


3.1.  Números  índices  simples 


Estos  índices  se  refieren  a  un  solo  artículo  o  concepto.  Son  simples  relaciones  o  por¬ 
centajes  entre  dos  valores  del  mismo. 

Para  la  magnitud  Y,  el  índice  simple  correspondiente  al  período  t,  tomando  como  base 
el  período  0,  será: 

It/o  =  lo  =  ^  x  100 

Conviene  subrayar  que  el  índice  simple  no  es  más  que  el  porcentaje  que  representa  Yt 
respecto  a  Yo-  Por  lo  tanto,  carece  de  dimensión. 

Por  ejemplo:  lo  =  loo  x  =  105  ,  significa  que  el  valor  de  la  magnitud  en  el  período 
actual  es  un  5  %  mayor  que  el  valor  de  la  misma  magnitud  en  el  período  base. 

En  ocasiones  se  utilizan  los  llamados,  ÍNDICES  EN  CADENA,  en  los  que  se  toma 
como  base  el  período  anterior  a  aquel  en  el  que  se  calcula  el  índice.  Su  formulación  es: 

It/t-i  =  It_i  =  x  100 
i  t-i 


Ejemplos: 

Las  siguientes  series  corresponden  al  precio  de  un  artículo  en  distintos  períodos,  y 
vamos  a  calcular  las  series  de  índices  simples  y  de  índices  encadenados: 


t 

Yt 

It/o 

It/t-i 

t 

Yt 

It/o 

I  t/t-i 

0 

125 

100 

- 

0 

140 

100 

- 

1 

140 

112 

112 

1 

156.8 

112 

112 

2 

154 

123.2 

110 

2 

180.32 

128.8 

115 

3 

177.1 

141.68 

115 

3 

216.384 

154.56 

120 

3.2.  Números  índices  compuestos  no  ponderados 


Los  índices  compuestos  son  aquellos  que  hacen  referencia  a  varios  artículos  o  mag¬ 
nitudes.  Se  trata  por  tanto  de  establecer  un  indicador  de  la  variación  experimentada 
por  la  característica  en  estudio,  correspondiente  al  «grupo  de  artículos  o  conceptos»  con¬ 
templándolo  como  un  solo  ente. 

Supongamos  que  queremos  analizar,  por  ejemplo,  la  variación  de  los  precios  de  un 
conjunto  de  magnitudes.  En  general,  para  N  artículos,  la  información  se  puede  representar 
en  una  tabla  de  doble  entrada,  de  la  siguiente  forma: 


3.3.  NUMEROS  INDICES  COMPUESTOS  PONDERADOS 
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Magnitudes 

1 

2 

N 

Período  base 

Ei 

*02 

Yon 

Período  actual 

Ei 

Yt2 

YtN 

índices  simples 

Ii 

h 

Ij V 

El  problema  consiste  en  sintetizar  la  información  de  la  tabla  para  obtener  un  indicador 
qne  nos  ponga  de  relieve  la  variación  existente  entre  los  precios  de  los  N  artículos  en  el 
período  actual  respecto  al  período  base  de  forma  conjunta. 

Un  criterio  para  resolver  dicho  problema  es  el  de  utilizar  promedios  de  los  números 
índices  simples. 

índice  de  la  media  aritmética: 


lt/o 


El* 

N 


Otro  criterio  para  resolver  el  problema,  consiste  en  calcular  un  índice  simple  entre  las 
sumas  de  los  valores  de  las  magnitudes,  es  decir: 

índice  de  la  media  agregativa: 

lt/o  =  5^  x  100 
¿O  roi 


Se  debe  hacer  notar  que  este  índice  sólo  tiene  sentido  cuando  las  magnitudes  están 
medidas  en  las  mismas  unidades  (no  se  pueden  sumar  kg  y  hl,  por  ejemplo). 


3.3.  Números  índices  compuestos  ponderados 


Los  índices  compuestos  sin  ponderar  tienen  varios  inconvenientes,  entre  los  que  desta¬ 
can  los  siguientes: 


■  Al  no  ponderar  los  conceptos  o  magnitudes  que  intervienen  en  el  índice,  esto  supone 
que  se  otorga  la  misma  importancia  a  todos  ellos. 

La  elaboración  de  un  índice  debe  estar  de  acuerdo  con  la  finalidad  que  se  persiga, 
razón  por  la  cual  cada  magnitud  debe  venir  afectada  de  un  «peso  o  ponderación» 
que  esté  en  relación  con  la  importancia  que  dicha  magnitud  tiene  dentro  de  todo 
el  conjunto.  Así  por  ejemplo,  si  se  quiere  obtener  un  índice  del  coste  de  la  vida,  el 
precio  de  la  canela  no  puede  tener  la  misma  importancia  que  el  precio  del  pan. 

■  Los  artículos  pueden  medirse  en  unidades  heterogéneas,  por  lo  que  no  son  compa¬ 
rables. 


Todo  ello  ha  dado  como  resultado  que  los  índices  sin  ponderar  tengan  un  empleo  muy 
limitado,  a  la  vez  que  da  pie  a  la  creación  de  los  índices  ponderados. 


60 


TEMA  3.  NUMEROS  INDICES 


Por  todo  esto,  en  muchas  ocasiones,  es  necesario  asignar  a  cada  magnitud  simple,  y 
por  lo  tanto  a  sus  índices,  unas  ponderaciones  que  reflejen  su  peso  relativo  dentro  del 
conjunto  en  el  que  se  consideran. 

Supongamos  que  las  diferentes  ponderaciones  asignadas  son:  wi, ..,  Wi, ..,  wn,  de  esta 
forma  obtendremos  los  siguientes  índices: 

índice  de  la  media  aritmética  ponderada: 

T  _  E  l 2iWi 

*-t/0 

T,wi 


índice  de  la  media  agregativa  ponderada: 


b/o 


E  Ytiwi 
E  Yom 


x  100 


* 

3.4.  Indices  de  precios,  de  cantidad  y  de  valor 

En  Economía,  los  índices  más  utilizados  son  los  que  se  refieren  a  precios,  cantidades  y 
valor. 


a 

3.4.1.  Indices  de  precios 

Podemos  considerar  los  siguientes  índices: 


Compuestos  sin  ponderar: 

•  índice  de  Sauerbeck: 

•  índice  de  Bradstreet  y  Dutot: 


y  Eh 

Sí/o  =  x  100 


N 


BDí/0  =  x  ioo 


Epc 


o* 


■  Compuestos  ponderados: 

En  los  índices  de  precios  que  se  elaboran  más  frecuentemente,  se  utilizan  como 
ponderaciones  las  alternativas  siguientes: 

1.  PoNoí'-  representa  el  valor  de  las  transacciones  (precio  por  cantidad)  realizadas 
para  dicho  artículo  en  el  periodo  base. 

2.  poiQu-  (valor  ficticio),  representa  el  valor  de  las  transacciones  realizadas  para 
dicho  artículo  en  el  periodo  actual  con  precios  del  período  base. 


3.4.  INDICES  DE  PRECIOS,  DE  CANTIDAD  Y  DE  VALOR 
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Utilizando  como  ponderación  la  alternativa  1,  y  el  índice  de  la  media  aritmética  pon¬ 
derada  de  los  índices  simples,  se  obtiene  el  ÍNDICE  DE  LASPEYRES: 


g  S¡PoNo-‘ 

poíqoí 


x  100 


Y,PtiQoi 

poíQoi 


x  100 


Podemos  observar  qne  simplificando  el  índice  de  Laspeyres  también  lo  podemos  defi¬ 
nir  como  una  media  agregativa  ponderada  de  los  precios,  usando  como  ponderación  las 
cantidades  en  el  período  base. 

La  elaboración  de  un  índice  de  Laspeyres  tiene  la  ventaja,  y  por  ello  es  el  que  más 
se  utiliza,  de  que  las  ponderaciones  del  período  base  se  mantienen  fijas  para  todos  los 
períodos.  Sin  embargo,  presenta  el  inconveniente  de  que  pierde  representatividad  a  medida 
que  nos  alejamos  del  período  base. 


Cuando  se  utiliza  la  alternativa  2  como  ponderación  en  una  media  aritmética  de  índices 
simples,  se  obtiene  el  ÍNDICE  DE  PAASCHE: 


g  Iggodfo 

EPcUfc: 


x  100 


Tjhiqu 
E  PoiQti 


x  100 


Este  índice  también  se  puede  ver  como  una  media  agregativa  de  los  precios,  siendo  las 
ponderaciones  las  cantidades  en  el  momento  actual. 

En  este  índice  las  ponderaciones  ( poiQu )  son  variables.  Concretamente,  para  su  elabora¬ 
ción  se  requiere  información  de  los  precios  y  cantidades  en  cada  período,  a  diferencia  del  de 
Laspeyres,  para  cuya  elaboración  únicamente  se  precisa  información  sobre  las  cantidades 
del  período  base,  aparte,  claro  está,  de  los  datos  sobre  precios  de  cada  periodo. 

El  índice  de  Paasche  también  pierde  representatividad,  aunque  en  menor  medida  que 
el  índice  de  Laspeyres,  a  medida  que  el  año  con  el  que  se  efectúa  la  comparación,  está  más 
alejado  del  año  base. 

Otro  índice  ponderado,  aunque  menos  utilizado  es  el: 

ÍNDICE  DE  FISHER:  es  la  media  geométrica  de  los  índices  de  Laspeyres  y  Paasche, 
con  lo  cual,  su  valor  estará  acotado  por  el  valor  que  tienen  ambos  índices. 


Y.Pti%i 

E  PoíQoí 


X 


YjhOü 

EPiUfe; 


x  100 


* 

3.4.2.  Indices  de  cantidad 

Son  los  que  tratan  de  medir  la  evolución  relativa  de  una  magnitud  económica  (pro¬ 
ducción,  consumo,  etc...)  en  términos  reales,  es  decir,  sin  recoger  el  efecto  que  sobre  ella 
pueda  haber  tenido  la  variación  de  precios. 

Solo  nos  vamos  a  fijar  en  las  formulaciones  de  números  índices  compuestos  ponderados, 
ya  que  únicamente  se  suelen  utilizar  estos. 
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Al  igual  que  en  el  caso  de  los  números  índices  de  precios,  los  índices  cuánticos  más 
utilizados  son  los  de  Laspeyres  y  Paasche. 


índice  de  Laspeyres: 


L?/o 


E  ^TPoíQoí  Y'  QtiPoí 

q°l  x  100  =  b q  p  x  100 


E  PoNoi 


ei  QoíPoi 


índice  de  Paasche: 


p9 

rf/o 


E  ^~QoiPti  e  qhpu 

q°l  x  100  =  E  HtlFtl  X  100 


E  QoiPti 


E  9o iPti 


El  índice  de  cantidad  de  Fisher  será,  en  este  caso: 
índice  de  Fisher: 

T7(l  _  /t  ?  p9 

r  t/o  ~  y  L‘t/osrt/o 


A 

3.4.3.  Indices  de  valor 

El  valor  de  un  conjunto  de  mercancías  (producidas,  consumidas,  exportadas,  etc...)  o 
gasto,  para  dos  períodos  de  tiempo,  el  actual  y  el  base,  vendrá  dado,  respectivamente,  por 
las  siguientes  expresiones: 


Vt  =  ^2  Vti  =  ^2  PtiQti 
vo  =  ^2  V(H  =  ^PoNoí 


El  cociente  entre  ambos  agregados  es: 


í.4x  100  = 

Vn 


EKi 

E^ot 


x  100 


E  PtiQti 
E  PoiQoí 


x  100 


y  se  denomina  índice  de  valor  agregado  de  la  producción  o  del  gasto  en  consumo. 

Resulta  evidente  que  en  un  índice  de  valor  se  reflejan  conjuntamente  las  variaciones  de 
los  precios  y  las  cantidades,  ya  que  las  variaciones  entre  los  valores  no  son  sino  el  efecto 
conjunto  de  las  variaciones  de  las  cantidades  y  de  sus  precios  respectivos  entre  ambos 
períodos. 

Si  para  un  cierto  artículo  se  verifica  que  su  valor  es  igual  al  precio  por  la  cantidad, 
v  =  pq,  parece  lógico  que  exijamos  que  para  un  grupo  de  artículos  se  cumpla  la  misma 
ecuación  y  por  lo  tanto,  para  los  índices  se  debería  exigir  que  i'  =  Ipm. 

Es  fácil  demostrar  que  esto  no  siempre  es  cierto.  En  particular,  para  los  índices  que 
hemos  definido: 
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1.  UpLq  ±  lv 

2.  PPP9  ^  lv 

3.  FPF9  =  lv 


También  es  evidente  que  (prescindiendo  del  100): 


v Vu ptrQti 

í//0  ^0í  YIPoíQoí 


F  ptíQti  ^  F  poiQtí 

F  porta  F  po¿?o¿ 

F  Puqn  F  Pugoi 

F  PtiQOi  F  POiQOi 


dp  i? 
rí/0iJí/0 
p9  TP 
rí/0iJí/0 


Es  decir  que,  el  índice  de  valor  puede  expresarse  mediante  un  producto  de  índices  de 
Laspeyres  (precios  o  cantidades)  y  de  Paasche  (cantidades  o  precios)  respectivamente. 


3.5.  Propiedades  de  los  números  índices 


Irving  Fisher  intentó  establecer  una  sistematización  de  los  números  índices,  y  propuso 
una  serie  de  criterios  o  propiedades  para  examinar  las  diferentes  fórmulas,  de  tal  forma 
que  un  índice  será  más  ventajoso  cuantas  más  propiedades  cumpla  (esto  no  quiere  decir 
que  si  no  las  satisface  la  fórmula  deba  eliminarse). 

Estas  propiedades  parten  del  siguiente  principio:  Lo  que  es  cierto  para  un  producto, 
y  por  lo  tanto  para  un  índice  simple,  debería  ser  cierto  para  un  conjunto  de  ellos,  y  en 
consecuencia,  para  el  número  índice  compuesto  que  los  representa. 

En  estas  propiedades  se  prescinde  de  multiplicar  por  100. 

■  Identidad:  se  dice  que  un  índice  cumple  el  criterio  de  identidad,  si  el  índice  del 
período  t,  respecto  al  período  t  como  base,  es  la  unidad. 

I  t/t  =  1 


La  cumplen  todos. 

■  Inversión:  se  dice  que  un  índice  cumple  el  criterio  de  inversión  si  el  índice  respecto 
a  t  con  base  t’,  multiplicado  por  el  índice  respecto  a  t’  con  base  t  es  la  unidad. 

I t/t1  x  I t’/t  —  1 

La  verifican:  BD;  F.  No  la  verifican:  S;  L;  P. 

■  Reversibilidad  de  los  factores:  se  dice  que  un  índice  cumple  el  criterio  de  rever¬ 
sibilidad  de  los  factores  si  el  índice  de  precios  por  el  índice  de  cantidad  es  el  índice 
de  valor: 

tp  vil  _  jV 

b/ o  x  V o  —  b/0 

La  verifica:  F.  No  la  verifican:  S;  BD;  L;  P. 
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■  Transitiva  o  circular  (es  una  generalización  de  la  propiedad  de  inversión): 

I t'/t  —  li'/í'-l  x  b'-l/í'-2  X  •  •  •  X  It+2/t+l  X  It+i/í 
La  verifica:  BD.  No  la  verifica:  F. 


3.6.  Pasos  para  el  cálculo  de  los  números  índices 


Al  elaborar  un  índice  compuesto,  hay  que  realizar  una  serie  de  pasos,  entre  los  que 
destacan  los  siguientes  (nos  referiremos  al  cálculo  del  índice  de  precios  al  consumo): 

1.  Selección  de  variables:  El  primer  problema  que  se  plantea  es  el  de  seleccionar 
«qué  variables»  entrarán  en  el  mismo  y  definirlas  perfectamente.  Ej.:  Cacao:  Nesquik 
de  800  gr. 

Puesto  que  el  índice  es  un  resumen  del  grupo  o  conjunto  al  que  se  refiere,  se  deben 
elegir  los  artículos  o  conceptos  más  relevantes  dentro  del  grupo  (pan  vs  canela). 

2.  Selección  de  los  lugares  y  tiempos  de  observación:  Lina  vez  definidos  los 
conceptos  que  forman  el  grupo,  se  procederá  a  conseguir  las  observaciones.  Estas 
observaciones  consisten  en  la  obtención  de  los  valores  numéricos  correspondientes  a 
los  precios  y/o  cantidades  de  los  artículos  seleccionados. 

Es  necesario  que  las  observaciones  se  lleven  a  cabo  siempre  en  los  mismos  lugares 
y  referentes  al  mismo  tipo  o  variedad  de  artículo.  También  debe  especificarse  el 
instante  en  el  que  se  lleva  a  cabo  la  observación  (no  promociones,  aunque  ahora 
entran  las  rebajas),  o  bien  un  intervalo  de  tiempo  al  que  se  referirán  las  distintas 
tomas  de  datos. 

Los  lugares  y  tiempos  de  observación  se  deben  seleccionar  en  función  de  la  impor¬ 
tancia  del  concepto  dentro  del  grupo. 

3.  Selección  de  la  base:  Puesto  que  el  tiempo  base  es  el  término  de  referencia  o 
comparación,  se  debe  elegir  de  forma  que  sea  un  tiempo  o  época  «normal». 

Si,  por  ejemplo,  vamos  a  elaborar  un  índice  de  producción  agrícola,  no  debemos 
tomar  como  año  base  un  año  de  cosechas  excepcionales,  ya  que  el  resto  de  los 
años,  al  compararlos,  nos  arrojarán  datos  infravalorados.  Por  ello,  en  ciertos  tipos 
de  índices  de  producción,  en  los  que,  por  las  características  de  los  artículos,  se 
presentan  grandes  fluctuaciones,  se  recomienda  tomar  como  base  un  promedio  de 
varios  años,  para  eliminar  así  dichas  fluctuaciones. 

4.  Selección  de  fórmulas  y  ponderaciones:  Se  debe  tener  en  cuenta  que  las  dis¬ 
tintas  fórmulas  guardan  una  estrecha  relación  con  las  ponderaciones  y  con  el  coste 
en  que  se  incurre  para  elaborar  el  índice. 

En  el  caso  de  no  disponer  de  las  ponderaciones,  solo  podemos  elaborar  índices  sin 
ponderar  (Sauerbeck  o  Bradstreet).  En  el  caso  de  que  se  conozcan  las  ponderaciones, 
la  elección  depende  de  los  medios  de  que  se  disponga.  El  más  costoso  es  el  de  Fisher, 
seguido  del  de  Paasche  y  el  de  Laspeyres.  Este  último  solo  necesita  conocer  las 
ponderaciones  del  año  base,  por  lo  que  es  el  más  económico. 
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5.  Renovación  del  índice:  A  medida  que  el  tiempo  transcurre  (y  nos  alejamos  de  la 
base)  tienen  lugar  cambios  en  el  comportamiento  de  las  variables,  de  modo  que  el 
conjunto  de  variables  que  se  ha  seleccionado  para  la  elaboración  del  índice  puede 
haber  dejado  de  ser  representativo.  Por  otro  lado,  las  ponderaciones  pueden  no 
ajustarse  tampoco  a  la  estructura  del  momento. 

Ej.:  Hace  unos  cincuenta  años,  el  pollo  solo  se  consumía  los  domingos  (y  solo  algunos 
privilegiados)  y  ahora  se  consume  todos  los  días.  Por  otra  parte,  en  los  hogares  se 
consumía  carbón  y  por  supuesto  no  había  ordenadores. 

Por  ello,  conviene  «renovar»  el  índice.  Esto  lleva  consigo  comenzar  todo  el  proceso 
desde  el  principio:  elegir  las  variables,  nueva  base,  ponderaciones,  ... 


6.  Empalme  o  enlace  de  índices  nuevos  con  los  antiguos:  Una  vez  que  se  ha 

llevado  a  cabo  la  renovación  del  índice,  nos  encontraremos  series  de  índices,  cada  una 
de  las  cuales  abarcará  períodos  distintos.  La  serie  nueva  comenzará  naturalmente 
por  100,  y  habrá  entonces  una  «rotura»  de  datos. 

En  muchas  ocasiones  necesitaremos  una  sola  serie  de  índices  que  nos  permita  ver  la 
evolución  temporal  del  fenómeno,  para  ello  debemos  enlazar  las  dos  series  de  índices. 
El  proceso  es  muy  sencillo,  veámoslo  sobre  un  ejemplo: 

Supongamos  que  tenemos  los  índices  de  precios  al  consumo  en  dos  series.  La  primera, 
con  base  en  2001,  abarca  los  años  2003  al  2006,  y  la  segunda,  con  base  en  2006,  abarca 
los  años  2006  a  2009,  es  decir  que  se  dispone  de  los  siguientes  datos: 


IPC  base  2001 

IPC  base  2006 

2003 

106.68 

2004 

109.93 

2005 

113.63 

2006 

117.62 

100 

2007 

102.80 

2008 

107.00 

2009 

106.70 

El  enlace  se  puede  hacer  con  base  en  2001  o  con  base  en  2006. 

Suponiendo  que  queramos  obtener  toda  la  serie  con  base  en  este  último  año,  esta¬ 
bleceremos  la  siguiente  regla  de  tres: 

Si  117.62  equivale  a  100  entonces  113.63  equivale  a  x  ,  por  lo  tanto: 
x  =  113.63  x  AhíL  =  113.63  x 

Luego,  para  pasar  de  base  2001  a  base  2006,  tenemos  que  dividir  los  índices  con 
base  en  2001  por  la  constante:  1.1762 


De  forma  similar  se  obtiene  la  serie  con  base  en  2001,  sin  más  que  multiplicar  los 
índices  con  base  en  2006  por  la  constante:  1.1762 
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IPC  base  2001 

IPC  base  2006 

2003 

106.68 

90.70 

2004 

109.93 

93.46 

2005 

113.63 

96.61 

2006 

117.62 

100 

2007 

120.91 

102.80 

2008 

125.85 

107.00 

2009 

125.50 

106.70 

Hay  que  hacer  constar  que,  en  realidad,  los  dos  períodos  enlazados  no  son 
estrictamente  comparables,  ya  que  al  renovar  la  base  pueden  haber  entrado 
en  el  conjunto  artículos  nuevos,  habrán  desaparecido  otros,  habrán  cambiado  las 
ponderaciones,  etc...,  pero  cuando  es  necesario  enlazar  dos  series  no  queda  otra 
solución. 

Sin  embargo,  no  hay  que  olvidar  que  el  índice  es  solo  «un  reflejo»  de  la  variación 
del  fenómeno,  y  no  una  medida  exacta,  y  por  lo  tanto,  como  indicador  de  estas 
variaciones,  puede  sernos  de  utilidad,  a  pesar  de  los  inconvenientes  citados. 

7.  Cambio  de  base:  En  muchas  ocasiones  necesitaremos  expresar  los  índices  calcu¬ 
lados  con  base  en  una  época  0,  en  otra  base  t’.  La  diferencia  de  este  caso  con  el 
anterior,  es  que  ahora  no  existe  renovación  del  índice,  sino  que  artificialmente  va¬ 
mos  a  cambiar  de  período  base,  conservando  las  ponderaciones  del  periodo  base  0, 
respecto  al  que  se  elaboraron  los  índices. 

Por  ejemplo,  supongamos  que  conocemos  los  índices  de  precios  al  consumo,  calcu¬ 
lados  con  base  en  2001:  _ 


IPC  base  2001 

2001 

100 

2002 

103.54 

2003 

106.68 

2004 

109.93 

2005 

113.63 

2006 

117.62 

Si  queremos  tomar  como  base  el  año  2003  (IPC=100)  podemos  operar  igual  que 
antes  (resolviendo  una  regla  de  tres):  Como  el  valor  106’68  hay  que  convertirlo  en 
100,  habrá  que  dividirlo  por  1,0668;  por  lo  tanto  este  es  el  valor  constante  por  el 
que  habrá  que  dividir  todos  los  términos  de  la  serie. 


IPC  base  2001 

IPC  base  2003 

2001 

100 

93.74 

2002 

103.54 

97.06 

2003 

106.68 

100 

2004 

109.93 

103.05 

2005 

113.63 

106.51 

2006 

117.62 

110.25 

De  esta  forma  se  obtienen  los  valores  de  la  serie  con  base  en  2003. 

En  estos  casos,  para  evitar  confusiones,  se  debe  especificar,  además  del  año  base,  el 
año  al  que  se  refieren  las  ponderaciones. 
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3.7.  La  deflación  de  valores 


Ya  hemos  comentado  que  para  solucionar  el  problema  de  la  agregación  de  «bienes  y 
servicios»  heterogéneos,  se  procede  a  la  valoración  de  los  mismos.  En  economía  es  general 
el  empleo  que  se  hace  de  estos  valores. 

La  manera  de  calcular  el  valor  de  un  bien,  consiste  en  multiplicar  la  cantidad  (q)  por 
el  precio  (p);  y  el  precio  tiene  que  venir  expresado  en  unidades  monetarias,  es  decir,  en 

dinero. 

Pero  esta  unidad  de  medida  no  es  fija,  y  a  lo  largo  del  tiempo  sufre  alteraciones, 
que  se  concretan  en  variaciones  del  valor  del  dinero.  Lo  normal  es  que  los  precios  se 
eleven  a  medida  que  transcurre  el  tiempo,  proceso  conocido  con  el  nombre  de  inflación. 
La  inflación,  por  lo  tanto,  origina  una  pérdida  en  el  valor  del  dinero  (pérdida  de  poder 
adquisitivo). 

Al  comparar  valores  correspondientes  a  dos  épocas  distintas,  debemos  tener  en  cuenta 
que  deben  estar  expresadas  en  unidades  monetarias  equivalentes,  es  decir,  con  el 
mismo  poder  adquisitivo;  sin  embargo,  al  venir  referidas  a  tiempos  distintos,  vendrán 
expresadas  en  unidades  monetarias  con  diferente  poder  adquisitivo. 

Por  lo  tanto  es  necesario  corregir  la  pérdida  de  valor  del  dinero,  para  obtener  una 
unidad  de  medida  homogénea,  o  lo  que  es  lo  mismo:  expresar  los  valores  en  unidades 
monetarias  con  poder  adquisitivo  constante. 

El  procedimiento  mediante  el  cual  corregimos  la  pérdida  del  valor  del  dinero  se  conoce 
con  el  nombre  de  deflación. 

Entonces,  a  la  hora  de  comparar  magnitudes  económicas  en  valor  a  lo  largo  del  tiempo, 
se  requiere  que  estos  valores  sean  homogéneos,  lo  cual  requiere  deflactar  la  serie  de  valores 
corrientes  mediante  un  índice  de  precios  adecuado.  El  índice  que  se  utiliza  para  realizar 
esta  operación  recibe  el  nombre  de  deflactor. 

Para  obtener  la  serie  deflactada  (en  la  que  todos  los  valores  deben  estar  expresados  en 
las  mismas  unidades  monetarias)  hay  que  dividir  la  serie  original  en  precios  corrientes, 
por  el  deflactor  correspondiente;  de  esta  forma,  la  nueva  serie  refleja  su  evolución 
real  en  el  tiempo,  independientemente  de  las  alteraciones  monetarias. 

No  existe  un  deflactor  único,  sino  que  depende  de  la  magnitud  que  se  trate  de  obtener. 
Así  por  ejemplo,  si  se  quiere  medir  la  capacidad  real  de  compra  de  los  consumidores 
privados  en  bienes  de  consumo,  habrá  que  deflactar  las  rentas  monetarias  de  cada  período 
por  el  índice  deflactor  correspondiente,  que  sería,  en  este  caso,  el  índice  de  precios  al 
consumo. 

Veamos  ahora  qué  posibilidades  ofrecen  los  índices  de  Laspeyres  y  Paasche  para  de¬ 
flactar  una  serie  económica  agregada. 


Sean: 

Vt  =  Yj  Vti  =  EPuqu,  valor  agregado  a  precios  corrientes  del  período  actual. 
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Vo  =  Voí  =  J^PoiQoi,  valor  agregado  a  precios  corrientes  del  período  base. 

Al  dividir  Vt  por  el  índice  de  precios  de  Laspeyres,  resulta  la  siguiente  expresión: 


Vt 

Lp 


ZPtiQti  =  y -  pg 

Y  puqoi 

Y,  POiQOÍ 


Mientras  que  si  deflactamos  Vt  mediante  un  índice  de  precios  de  Paasche,  tenemos  que: 


Vt 

pp 


Tjhiqu 

Y  puqu 

Y  POiQti 


Así  pues,  al  deflactar  Vt  mediante  un  índice  de  precios  de  Laspeyres ,  se  obtiene  como 
resultado  una  proyección  temporal  del  valor  inicial,  Vo,  a  través  de  un  índice  cuántico  de 
Paasche. 

Por  el  contrario,  al  deflactar  con  un  índice  de  precios  de  Paasche  se  obtiene  la  valo¬ 
ración  de  la  producción  actual  a  precios  del  período  base.  Por  lo  tanto,  el  índice 
de  Paasche  es  el  deflactor  idóneo,  ya  que  permite  pasar  de  valores  monetarios  corrien¬ 
tes  a  valores  expresados  en  precios  (los  del  período  base)  constantes.  Si  utilizamos  como 
deflactor  cualquier  otro  índice,  no  obtenemos  valores  a  precios  constantes. 

A  pesar  de  que  el  índice  de  Paasche  es  el  más  adecuado,  en  la  práctica  se  utiliza  en 
muchas  ocasiones  el  índice  de  Laspeyres  por  ser  el  único  disponible,  ya  que  el  primero 
exige  para  su  elaboración  una  información  que  habitualmente  no  está  disponible. 

Por  otra  parte,  aunque  en  la  expresión  anterior  hemos  considerado  valores  que  se  pue¬ 
dan  descomponer  en  suma  de  productos  de  precios  por  cantidades,  se  puede  presentar 
el  problema  de  deflactar  una  magnitud  macroeconómica  que  no  permita  tal  descomposi¬ 
ción.  Por  ejemplo,  puede  interesarnos  expresar,  en  términos  constantes,  la  renta  personal 
disponible,  que  es  una  magnitud  que  tiene  un  carácter  estrictamente  monetario. 

Para  deflactar  una  magnitud  de  este  tipo,  debe  determinarse  previamente  el  objetivo 
perseguido  con  tal  operación,  para  después  proceder  a  la  elección  del  deflactor  más  ade¬ 
cuado  para  tal  efecto.  Así,  si  lo  que  queremos  es  expresar  la  renta  personal  disponible  en 
términos  de  poder  adquisitivo  en  bienes  de  consumo,  el  deflactor  a  elegir  será  el  índice  de 
precios  de  consumo. 


3.8. 


Indice  de  precios  de  consumo 


El  índice  de  Precios  de  Consumo  (IPC)  es  una  medida  estadística  de  la  evolución 
del  conjunto  de  precios  de  los  bienes  y  servicios  que  consume  la  población  residente  en 
viviendas  familiares  en  España. 

La  ficha  técnica  del  IPC  actual  es  la  que  se  muestra  a  continuación: 


3.9.  EJEMPLOS  RESUELTOS 
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Metodología 

Ficha  técnica . 
Noté 


Met< 


Pon 


Enk 

Proa 

indic 

Resul 

Serit 


Med 


Me  toe 

Met< 


Tipo  de  encuesta  continua  de  periodicidad  mensual 
Período  base:  2006 

Periodo  de  referencia  de  las  ponderaciones:  desde  el  Io 
trimestre  de  2004  hasta  el  4o  de  2005 
Muestra  de  municipios:  177 
Número  de  artículos:  491 

Número  de  observaciones:  aproximadamente  220  000 
precios  mensuales 

Clasificación  funcional  12  grupos.  37  subgrupos.  79 
clases  y  126  subclases:  57  rúbricas  y  28  grupos 
especiales 

Método  general  de  cálculo:  Laspeyres  encadenado 
Método  de  recogida  agentes  entrevistadores  en 
establecimientos  y  recogida  centralizada  para  artículos 
especiales 


Para  saber  más  sobre  la  metodología  general  del  IPC  calculado  en  España,  se  recomien¬ 
da  leer  el  documento  Metodología  que  se  encuentra  en  la  página  del  INE  (www.ine.es): 

http:  / /www. ine.es/daco/daco43/metoipc06.pdf 


3.9.  Ejemplos  resueltos 


Veamos  algunas  de  las  muchas  cuestiones  que  se  pueden  resolver  con  números  índices. 


1.  En  la  siguiente  tabla  se  muestran  los  salarios  medios  mensuales,  en  euros,  de  cierta 
categoría  de  empleados,  así  como  los  índices  de  precios  de  consumo  en  el  mismo 
período: 


Ano 

Salario 

IPCt/06 

2004 

2043 

93.5 

2005 

2125 

96.6 

2006 

2252 

100 

2007 

2393 

102.8 

2008 

2513 

107 

2009 

2561 

106.7 

a)  Obten  los  índices  que  miden  la  variación  de  los  salarios  de  cada  ano  respecto 
al  año  anterior. 

b )  Obten  los  índices  que  miden  la  variación  de  los  precios  de  cada  año  respecto  al 
año  2004. 

c)  Expresa  la  serie  de  los  salarios  anuales  en  unidades  monetarias  constantes  de 
2004. 


Solución. 
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a)  Obtén  los  índices  que  miden  la  variación  de  los  salarios  de  cada  ano  respecto 
al  año  anterior. 

Tenemos  que  calcular  los  índices  encadenados: 

=  sfri)  *  100 


El  primero  que  podemos  calcular  es: 


IS 


05/04 


2125 

2043 


x  100 


104.01 


análogamente: 

2252 

ISoe/05  =  2Í25  X  100  =  105'98 

y  así  con  todos  (al  final  del  ejercicio  está  la  tabla  completa). 

b )  Obtén  los  índices  que  miden  la  variación  de  los  precios  de  cada  año  respecto  al 
año  2004. 


En  este  caso  tenemos  que  hacer  un  cambio  de  base  en  el  índice. Ahora  el  ano 
base  es  2004,  por  lo  que  tenemos  que  convertir  el  93.5  en  un  100,  para  lo  cual 


nos  basta  con  multiplicar  la  serie  del  IPC  por 

IPCt/04  =  IPCí/04 


100 

9343 

100 

9343 


Los  correspondientes  valores  del  IPC  con  base  en  2004  están  en  la  tabla,  al 
final  del  ejercicio. 

c)  Expresa  la  serie  de  los  salarios  anuales  en  unidades  monetarias  constantes  de 
2004. 

Los  salarios  están  expresados  en  unidades  monetarias  corrientes  de  cada  año  y 
queremos  expresarlos  en  términos  constantes  del  año  2004. 

Para  ello  debemos  eliminar  el  efecto  de  la  inflación  (variación  de  los  precios  de 
cada  año  respecto  al  año  2004),  por  lo  tanto,  debemos  deflactar,  dividiendo  los 
salarios  en  u.m.  corrientes,  por  el  índice  de  precios  de  cada  año  con  base  en 
el  año  2004. 

Así,  en  el  año  2004  el  salario  medio  mensual  fue  de  2043. 

2125 

En  el  ano  2005,  fue  de  - =  2056  (euros  de  2004) 

’  1.0332  v  ’ 

y  así  con  todos  los  demás. 


Ano 

S(t) 

ipcí/06 

ISt/t-i 

IPQ/04 

¿'(ctes  de  2004) 

2004 

2043 

93.5 

— 

100.00 

2043.00 

2005 

2125 

96.6 

104.01 

103.32 

2056.81 

2006 

2252 

100 

105.98 

106.95 

2105.62 

2007 

2393 

102.8 

106.26 

109.95 

2176.51 

2008 

2513 

107 

105.01 

114.44 

2195.94 

2009 

2561 

106.7 

101.91 

114.12 

2244.18 

3.9.  EJEMPLOS  RESUELTOS 
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2.  La  familia  Pérez  ha  ido  registrando  los  ingresos  del  hogar  en  los  últimos  5  anos  y 
dispone  también  de  los  datos  del  IPC  con  base  en  el  año  2006. 


Ano 

Ingreso 

ipcí/06 

2004 

28602 

93.5 

2005 

29750 

96.6 

2006 

31528 

100 

2007 

33502 

102.8 

2008 

107 

a)  Si  los  ingresos  del  hogar  aumentaron  en  2008  un  2  %  respecto  al  ano  anterior 
¿cuál  fue  el  ingreso  del  hogar  ese  año? 

b)  Viendo  la  evolución  del  IPC  ese  año,  la  familia  dice  haber  perdido  poder  adqui¬ 
sitivo  y  exige  al  Gobierno  una  paga  para  compensar  esta  pérdida  ¿de  cuánto 
debería  ser  esa  paga? 

c)  Calcula  el  ingreso  del  hogar  en  el  año  2007  en  términos  constantes  del  año 
2004. 

Solución. 

a)  Si  los  ingresos  del  hogar  aumentaron  en  2008  un  2  %  respecto  al  año  anterior 
¿cuál  fue  el  ingreso  del  hogar  ese  año? 

El  ingreso  de  2008  fue  el  ingreso  de  2007  más  un  2  %  de  dicho  ingreso: 

2 

Ingreso(08)  =  Ingreso(07)  +  Ingreso (07)  =  1.02  Ingreso(07) 

Ingreso(08)  =  1.02  x  33502  =  34172.04  euros 

b)  Viendo  la  evolución  del  IPC  ese  año,  la  familia  dice  haber  perdido  poder  adqui¬ 
sitivo  y  exige  al  Gobierno  una  paga  para  compensar  esta  pérdida  ¿de  cuánto 
debería  ser  esa  paga? 

Para  no  perder  poder  adquisitivo  la  variación  de  los  ingresos  debería  haber  sido 
igual  a  la  del  IPC. 

Calculamos  la  variación  de  los  precios  de  2008  respecto  a  2007: 

IPC08/07  =  IP^08/06  x  100  =  -HL  x  100  =  104.0856 
08/07  IPCot/06  1  02.8 

Los  precios  subieron  un  4.0856  %,  por  lo  que  los  ingresos  deberían  haber  subido 
en  la  misma  proporción.  Es  decir  que  para  no  perder  poder  adquisitivo  el  ingreso 
debería  haber  sido  de: 

Ingreso  correcto(2008)  =  33502  x  1.040856  =  34870.76  euros 
Por  lo  tanto,  la  familia  debería  solicitar  una  paga  por  la  diferencia: 


Paga  =  34870.76  -  34172.04  =  698.72  euros 
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c )  Calcula  el  ingreso  del  hogar  en  el  ano  2007  en  términos  constantes  del  ano 
2004. 

Para  calcular  el  ingreso  del  hogar  en  el  año  2007  en  términos  constantes  del 
año  2004,  debemos  expresar  dicha  cantidad  eliminando  el  efecto  de  la  inflación 
en  ese  período. 

Calculamos  la  variación  de  los  precios  para  2007  respecto  a  2004: 

IPC07/04  =  !pp  7/06  X  100  =  x  100  =  109.9465 

1^004/06  y¿>.0 

Y  ahora  deflactamos  el  ingreso  de  2007: 

Ingreso 

Ingreso07(en  términos  ctes  de  2004)  =  — — — — 

IPh'07/04 

33502 

Ingreso07(en  términos  ctes  de  2004)  =  =  30471.18  euros  de  2004 

1.099465 


Tema  4 


La  curva  Normal 


Se  dice  que  algo  es  normal,  cuando  se  encuentra  en  su  estado  natural,  cuando  sirve  de 
norma  o  regla,  o  cuando  por  su  naturaleza,  forma  o  magnitud  se  ajusta  a  ciertas  normas 
fijadas  de  antemano. 

Y  ¿qué  tiene  que  ver  esto  con  la  Estadística?,  pues  mucho  más  de  lo  que  parece. 

Cuando  estudiamos  una  característica  de  una  población,  nos  interesa  saber  si  los  va¬ 
lores  observados  son  normales,  es  decir,  si  el  comportamiento  de  nuestra  variable,  en  la 
población  analizada,  es  normal,  es  el  esperado  o  el  que  cabría  esperar,  o  si,  por  el  contrario, 
la  variable  presenta  un  comportamiento  anómalo. 

Si  pensamos  en  la  altura  o  el  peso  de  los  hombres  adultos  de  una  determinada  po¬ 
blación,  podemos  observar  que  hay  unos  determinados  valores  que  nos  pueden  parecer 
normales  (175  cm,  80  kg),  y  que  nos  lo  parecen  así  porque  son  los  más  habituales,  los 
que  aparecen  con  mayor  frecuencia,  mientras  que  los  valores  alejados  de  estos,  tanto  por 
exceso  como  por  defecto  ya  no  se  consideran  normales  (225  cm,  40  kg)  y  si  aparecen  lo 
hacen  con  una  frecuencia  muy  pequeña.  En  general,  lo  normal,  se  encuentra  cerca  del 
valor  medio  y  es  lo  más  frecuente. 

Esta  idea  la  plasmó  Gauss  en  una  curva  llamada  curva  Normal,  cuya  formulación 
matemática  es  la  siguiente: 

f(x)  =  — /=e  2CT 


donde: 

f(x)  es  la  frecuencia  de  un  determinado  valor 
x  es  un  valor  cualquiera  de  la  variable 
es  la  media  de  la  distribución 
o  es  la  desviación  típica  de  la  distribución 
7T  es  la  constante:  3.14159... 
e  es  la  constante:  2.71828... 
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Los  valores  de  ¡i  y  de  a  constituyen  los  parámetros  de  la  curva  Normal,  que  denotare¬ 
mos  como  N(p,  a)  (Normal  de  media  p  y  desviación  típica  a). 

Está  claro  que  este  no  es  más  que  un  modelo  teórico  y  que  ningún  fenómeno  de  la 
naturaleza  se  va  a  ajustar  exactamente  a  este  modelo,  pero  sí  que  hay  muchos  fenómenos 
cuyo  comportamiento  se  acercará  mucho. 

Más  adelante  (en  las  prácticas  con  ordenador)  veremos  cómo  determinar  si  nuestra 
variable  tiene  un  comportamiento  parecido  al  de  una  Normal,  pero  por  ahora  vamos  a 
estudiar  esta  función  y  a  descubrir  algunas  de  sus  propiedades. 


4.1.  Propiedades  de  la  curva  Normal 


o  o 

M - M - ► 


Z 

g-c  |j.  g+a 


A  simple  vista  se  pueden  observar  varias  características: 

1.  Tiene  forma  de  campana. 

2.  Es  simétrica  respecto  al  parámetro  /i. 

3.  La  media,  la  mediana  y  la  moda  coinciden  con  el  valor  p. 

4.  Los  puntos  de  inflexión  de  la  curva  corresponden  a  las  abscisas  p  ±  a. 

Además  esta  curva  tiene  otras  propiedades  que,  aunque  se  intuyen,  no  se  ven  a 
simple  vista  y  que  vamos  a  comentar: 

5.  El  área  total  bajo  la  curva  vale  1. 

6.  Existe  una  relación  muy  interesante  entre  la  media  y  la  desviación  típica:  «la  pro¬ 
porción  de  datos  que  se  encuentran  entre  la  media  y  la  media  más  una  desviación 
típica  es  de  0.3413»  (aproximadamente  un  tercio). 


4.2.  VALORES  TIPIFICADOS 
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Gráfico  de  una  Normal  (0.1) 


Esto  significa  que  en  el  intervalo  de  2  desviaciones  típicas  en  torno  a  la  media,  se 
concentra  una  proporción  de  observaciones  de  0.6826,  o  lo  que  es  lo  mismo,  el  68.26%  de 
las  observaciones  (algo  más  de  dos  tercios). 

En  general,  casi  el  100  %  de  las  observaciones  se  encuentran  a  menos  de  3  desviaciones 
típicas  de  la  media. 


Nota:  estamos  identificando  la  proporción  de  datos  en  un  intervalo  con  el  área  bajo  la 
curva  en  dicho  intervalo. 


4.2.  Valores  tipificados 


Una  utilidad  de  la  información  anterior  es  la  siguiente: 

Supongamos  que  conocemos  la  media  {¡jl— 6.5)  y  la  desviación  típica  (cr=1.7)  de  las 
calificaciones  de  los  alumnos  de  esta  asignatura  en  el  primer  trabajo  del  curso,  y  que 
sabemos  que  dichas  calificaciones  se  distribuyen  normalmente  (es  decir,  siguen  una  distri¬ 
bución  Normal).  Entonces,  podemos  afirmar  que  el  68.27%  de  los  estudiantes  de  la  clase, 
tiene  una  calificación  entre  6.5-1. 7  (=4.8)  y  6. 5+1. 7  (=8.2). 

Otra  situación  que  se  puede  plantear  es  la  siguiente:  un  compañero  nos  dice  que  ha  sa¬ 
cado  un  7.5  en  los  dos  trabajos  que  hay  que  realizar  durante  el  curso,  ¿cómo  interpretamos 
estas  puntuaciones? 

Directamente  no  lo  podemos  interpretar,  pero,  suponiendo  que  las  calificaciones  del 
segundo  trabajo  sigan  también  una  distribución  Normal,  y  si  conocemos  la  media  (/i= 8)  y 
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la  desviación  típica  (a=1.5)  de  las  notas  del  grupo,  podemos  comparar  ambas  calificaciones 
y  determinar  cuál  es  su  posición  en  el  grupo  en  ambos  casos. 

Por  un  lado,  podemos  calcular  su  desviación  respecto  a  la  media  del  grupo: 

En  el  primer  trabajo:  7. 5-6. 5=1,  su  calificación  está  1  punto  por  encima  de  la  media 
del  grupo,  mientras  que  en  el  segundo  trabajo:  7.5-8=-0.5,  lo  que  significa  que  su  nota 
está  medio  punto  por  debajo  de  la  nota  media  del  grupo. 

Sin  embargo,  como  ya  sabemos,  es  importante  conocer  lo  próximos  o  alejados  que 
se  encuentran  los  valores  de  la  media,  por  lo  que,  si  dividimos  estas  desviaciones  por  la 
desviación  típica  (es  decir,  utilizamos  la  desviación  típica  como  unidad  de  medida  de  la 
dispersión),  obtendremos  unos  valores,  llamados  valores  tipificados,  que  corresponden  a 
distribuciones  del  mismo  tipo  (estos  valores  corresponden  a  una  escala  que  tiene  el  99.73  % 
de  sus  valores  entre  -3  y  3). 


z\  = - =  0.59  ,  mientras  que  en  el  segundo  trabajo:  Z2  = - =  —0.33 

1.7  1.5 

Ahora,  ambos  valores  corresponden  a  la  misma  escala  y  son  comparables.  Como  vemos, 
las  dos  notas,  aunque  numéricamente  son  iguales,  no  representan  lo  mismo. 

La  nota  del  primer  trabajo  está  0.59  veces  la  desviación  típica,  por  encima  de  la  nota 
media  del  grupo,  mientras  que  la  nota  del  segundo  trabajo  está  0.33  veces  la  desviación 
típica  por  debajo  de  la  nota  media  del  grupo. 

Como  ambos  valores  están  en  la  misma  escala,  podemos  afirmar  que  es  mucho  mejor 
nota  la  del  primer  trabajo,  que  la  nota  del  segundo  trabajo,  con  relación  a  las  notas  del 
grupo. 

Los  valores  tipificados  nos  permiten  comparar  tanto  los  valores  de  un  mismo  sujeto 
para  distintas  variables  (que  pueden  estar  medidas  en  distintas  escalas),  como  los  valores 
de  distintos  sujetos  para  la  misma  variable. 


Características  de  los  valores  tipificados 

1.  Los  valores  tipificados  son  una  mera  transformación  lineal  de  los  valores  observados 
y  por  lo  tanto  son  equivalentes. 

Esto  significa  que  la  forma  de  la  distribución  de  los  valores  tipificados  es  la  misma 
que  la  de  los  valores  originales. 

2.  La  media  de  los  valores  tipificados  es  siempre  cero. 

Esto  es  consecuencia  directa  de  la  propiedad  de  la  media  que  dice  que  la  suma  de 
las  desviaciones  respecto  a  la  media  es  cero. 


Z  = 


X-x 

s' 


Í=  1  i=  1 


s' 


1  1  V-  -x  11 

rii  =  —  —  >  \Xi-x)ni  =  --0  =  0 

1— 1 


N  s' 
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3.  La  desviación  típica  de  los  valores  tipificados  es  siempre  1. 

Esto  se  debe  a  las  propiedades  de  la  varianza  (y  por  lo  tanto  de  la  desviación  típica) 
frente  a  transformaciones  lineales: 


x  1  ^ 

Z  =  — — —  donde  s'  =  Sx  y  sabemos  que  Sj  =  —  —  z)2n¿ 


i=  1 


Como  Zi  —  z  =  — - ,  entonces: 

s' 


s'2 

' ’z 


2  1  ( Xi  —  x\2  11 


N 


£< 

¿=1 


2=1 


Xj  —  x)  rij  — 


o'2 

=  ^  =  i 


2=1 
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Suponiendo  que  nuestra  distribución  se  ajusta  a  una  curva  Normal  y  que  conocemos 
la  media  y  la  desviación  típica,  podemos  averiguar  la  proporción  de  datos  que  cumplen 
determinados  criterios. 

Para  ello  se  utilizan  los  valores  (que  están  tabulados)  de  la  Normal  de  media  0  y 
desviación  típica  1.  Tabla  de  la  1V(0, 1): 


z 

0.00 

0.01 

0.02 

0.03 

0.04 

0.05 

0.06 

0.07 

0.08 

0.09 

0.0 

0.5000 

0.4960 

0.4920 

0.4880 

0.4840 

0.4801 

0.4761 

0.4721 

0.4681 

0.4641 

0.1 

0.4602 

0.4562 

0.4522 

0.4483 

0.4443 

0.4404 

0.4364 

0.4325 

0.4286 

0.4247 

0.2 

0.4207 

0.4168 

0.4129 

0.4090 

0.4052 

0.4013 

0.3974 

0.3936 

0.3897 

0.3859 

0.3 

0.3821 

0.3783 

0.3745 

0.3707 

0.3669 

0.3632 

0.3594 

0.3557 

0.3520 

0.3483 

0.4 

0.3446 

0.3409 

0.3372 

0.3336 

0.3300 

0.3264 

0.3228 

0.3192 

0.3156 

0.3121 

0.5 

0.3085 

0.3050 

0.3015 

0.2981 

0.2946 

0.2912 

0.2877 

0.2843 

0.2810 

0.2776 

0.6 

0.2743 

0.2709 

0.2676 

0.2643 

0.2611 

0.2578 

0.2546 

0.2514 

0.2483 

0.2451 

0.7 

0.2420 

0.2389 

0.2358 

0.2327 

0.2296 

0.2266 

0.2236 

0.2206 

0.2177 

0.2148 

0.8 

0.2119 

0.2090 

0.2061 

0.2033 

0.2005 

0.1977 

0.1949 

0.1922 

0.1894 

0.1867 

0.9 

0.1841 

0.1814 

0.1788 

0.1762 

0.1736 

0.1711 

0.1685 

0.1660 

0.1635 

0.1611 

1.0 

0.1587 

0.1562 

0.1539 

0.1515 

0.1492 

0.1469 

0.1446 

0.1423 

0.1401 

0.1379 

1.1 

0.1357 

0.1335 

0.1314 

0.1292 

0.1271 

0.1251 

0.1230 

0.1210 

0.1190 

0.1170 

1.2 

0.1151 

0.1131 

0.1112 

0.1093 

0.1075 

0.1056 

0.1038 

0.1020 

0.1003 

0.0985 

1.3 

0.0968 

0.0951 

0.0934 

0.0918 

0.0901 

0.0885 

0.0869 

0.0853 

0.0838 

0.0823 

1.4 

0.0808 

0.0793 

0.0778 

0.0764 

0.0749 

0.0735 

0.0721 

0.0708 

0.0694 

0.0681 

1.5 

0.0668 

0.0655 

0.0643 

0.0630 

0.0618 

0.0606 

0.0594 

0.0582 

0.0571 

0.0559 

1.6 

0.0548 

0.0537 

0.0526 

0.0516 

0.0505 

0.0495 

0.0485 

0.0475 

0.0465 

0.0455 

1.7 

0.0446 

0.0436 

0.0427 

0.0418 

0.0409 

0.0401 

0.0392 

0.0384 

0.0375 

0.0367 

1.8 

0.0359 

0.0351 

0.0344 

0.0336 

0.0329 

0.0322 

0.0314 

0.0307 

0.0301 

0.0294 

1.9 

0.0287 

0.0281 

0.0274 

0.0268 

0.0262 

0.0256 

0.0250 

0.0244 

0.0239 

0.0233 

2.0 

0.0228 

0.0222 

0.0217 

0.0212 

0.0207 

0.0202 

0.0197 

0.0192 

0.0188 

0.0183 

2.1 

0.0179 

0.0174 

0.0170 

0.0166 

0.0162 

0.0158 

0.0154 

0.0150 

0.0146 

0.0143 

2.2 

0.0139 

0.0136 

0.0132 

0.0129 

0.0125 

0.0122 

0.0119 

0.0116 

0.0113 

0.0110 

2.3 

0.0107 

0.0104 

0.0102 

0.0099 

0.0096 

0.0094 

0.0091 

0.0089 

0.0087 

0.0084 

2.4 

0.0082 

0.0080 

0.0078 

0.0075 

0.0073 

0.0071 

0.0069 

0.0068 

0.0066 

0.0064 

2.5 

0.0062 

0.0060 

0.0059 

0.0057 

0.0055 

0.0054 

0.0052 

0.0051 

0.0049 

0.0048 

2.6 

0.0047 

0.0045 

0.0044 

0.0043 

0.0041 

0.0040 

0.0039 

0.0038 

0.0037 

0.0036 

2.7 

0.0035 

0.0034 

0.0033 

0.0032 

0.0031 

0.0030 

0.0029 

0.0028 

0.0027 

0.0026 

2.8 

0.0026 

0.0025 

0.0024 

0.0023 

0.0023 

0.0022 

0.0021 

0.0021 

0.0020 

0.0019 

2.9 

0.0019 

0.0018 

0.0018 

0.0017 

0.0016 

0.0016 

0.0015 

0.0015 

0.0014 

0.0014 
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Para  valores  mayores: 


z 

0.0 

0.1 

0.2 

0.3 

0.4 

0.5 

0.6 

0.7 

0.8 

0.9 

3 

0.00135 

0.03968 

0.0*687 

0.0*483 

0.033  3  7 

0.0*233 

0.0*159 

0.0*108 

0.04723 

0.04481 

4 

0.043  1  7 

0.04207 

0.04133 

0.058  54 

0.05541 

0.0*340 

0.02  1 

0.0*130 

0.0*793 

0.0*479 

5 

0.0*287 

0.0*170 

0.07996 

0.025  79 

0.073  3  3 

0.0190 

0.07107 

0.0*599 

0.0*332 

0.0*182 

6 

0.0"987 

0.0*530 

0.0*282 

0.0*149 

0.0'°777 

0.0'°402 

0.0'°206 

0.0m104 

0.0n523 

0.0n260 

7 

0.0n128 

0.0I2624 

0.0I23  01 

0.012144 

0.0,3682 

0.013320 

0.013149 

0.0I4688 

0.0“*311 

0.0W133 

Esta  tabla  representa  la  proporción  de  observaciones  que  se  encuentran  «a  la  derecha» 
de  un  determinado  valor  z,  correspondiente  a  una  variable  que  se  distribuye  según  una 
Normal  de  media  0  y  desviación  típica  1:  ÍV(0, 1). 


4.3.1.  ¿Cómo  se  utiliza  la  tabla? 

En  primer  lugar,  sabemos  que  la  curva  es  simétrica,  por  lo  que  la  mitad  de  las  obser¬ 
vaciones  (0.5  o  el  50%),  se  encuentran  en  cada  una  de  las  dos  mitades.  Por  eso  solo  se 
utiliza  la  parte  de  la  derecha,  ya  que  haciendo  un  cálculo  muy  sencillo  se  pueden  obtener 
las  proporciones  correspondientes  para  los  valores  negativos. 

¿Cómo  se  leen  los  valores  de  la  tabla? 

En  general  se  trabaja  con  valores  típicos  con  dos  decimales.  La  parte  entera 
y  el  primer  decimal  están  en  la  columna  de  la  izquierda  de  la  tabla,  y  el  segundo  decimal 
en  la  primera  fila. 

De  este  modo,  para  buscar  la  proporción  de  observaciones  con  un  valor  típico  mayor 
que  0.59,  tenemos  que  buscar  la  intersección  entre  la  fila  del  0.5  y  la  columna  del  0.09: 


Z 

0.00 

0.01 

0.02 

0.03 

0.04 

0.05 

0.06 

0.07 

0.08 

0.09 

0.0 

0.5000 

0.4960 

0.4920 

0.4880 

0.4840 

0.4801 

0.4761 

0.4721 

0.4681 

02 

641 

0.1 

0.4602 

0.4562 

0.4522 

0.4483 

0.4443 

0.4404 

0.4364 

0.4325 

0.4286 

0 2 

247 

0.2 

0.4207 

0.4168 

0.4129 

0.4090 

0.4052 

0.4013 

0.3974 

0.3936 

0.3897 

o.: 

859 

0.3 

0.3821 

0.3783 

0.3745 

0.3707 

0.3669 

0.3632 

0.3594 

0.3557 

0.3520 

02 

483 

0.4 

0.3446 

0.3409 

0.3372 

0.3336 

0.3300 

0.3264 

0.3228 

0.3192 

0.3156 

0.1 

rl21 

a  moí 

a  mzn 

a  tai  ^ 

0  °°81 

a 

0  onl° 

A  7077 

0 

0  °81(^-( 

A ^ 

U.5 

0.6 

0.2743 

0.2709 

0.2676 

0.2643 

0.2611 

0.2578 

0.2546 

0.2514 

0.2483 

oÜ 

n  7 

0.2420 

0.2389 

0.2358 

0.2327 

0.2296 

0.2266 

0.2236 

0.2206 

0.2177 

0.2148 

Es  decir  que  dicha  proporción  es  de  0.2776,  o  dicho  de  otra  forma,  un  27.76%  de  las 
observaciones  tienen  una  puntuación  típica  mayor  que  0.59. 
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Si  recordamos  el  ejemplo  de  las  calificaciones  en  los  trabajos,  estaríamos  diciendo  que 
solo  el  27.76%  de  los  compañeros  de  clase  tienen  una  puntuación  mejor  en  el  primer 
trabajo.  Esto  también  se  puede  interpretar  diciendo  que  el  72.24%  de  sus  compañeros 
tienen  una  calificación  inferior. 

Como  las  distribuciones  de  los  datos  originales  y  de  los  valores  típicos  correspondientes 
son  equivalentes,  podemos  afirmar  que  en  el  primer  trabajo:  7.5  es  una  nota  que  no  es 
superada  por  el  72.24%  de  los  alumnos  del  curso;  o  bien,  7.5  es  una  nota  que  solo  es 
superada  por  el  27.76  %  de  los  alumnos  del  curso. 

RECUERDA:  para  utilizar  la  tabla  de  la  Normal,  los  valores  deben  corresponder  a  una 
distribución  Normal  de  media  0  y  desviación  típica  1,  por  lo  tanto,  para  poder  calcular 
todas  estas  proporciones,  debemos  tipificar  previamente. 


4.3.2.  Cálculos  en  distintas  situaciones 

La  tabla  solo  nos  da  la  proporción  de  datos  por  encima  de  un  determinado  valor 
positivo,  así  que  si  queremos  calcular  alguna  otra  proporción  tendremos  que  hacer  algunos 
cálculos  para  obtenerla. 

a)  Proporción  de  datos  por  debajo  de  un  determinado  valor  positivo  (+1.00): 


Si  nos  fijamos  en  el  gráfico  de  esta  situación 


y  en  su  complemen¬ 


tario  "  i  ,  podemos  comprobar  que  la  proporción  que  queda  por  debajo 


de  +1.00  es  el  total  (1  o  el  100  %)  menos  la  proporción  que  queda  por  encima  de  ese  valor 
(que  está  en  las  tablas): 

Por  lo  tanto:  La  proporción  por  debajo  de  +1.00  es  igual  a  1-0.1587=0.8 jl3 


b)  Proporción  de  observaciones  por  encima  de  un  determinado  valor  nega¬ 
tivo  (-1.00): 


Como  la  curva  es  simétrica,  las  áreas 


son 


iguales,  es  decir,  que  la  proporción  por  encima  de  (-1.00)  es  la  misma  que  la  que  queda 
por  debajo  de  (+1.00). 
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Por  lo  tanto:  La  proporción  por  encima  de  -1.00  es  igual  a  1-0.1587—0.84-13 


c)  Proporción  de  observaciones  por  debajo  de  un  determinado  valor  nega¬ 
tivo  (-1.00): 


Como  la  curva  es  simétrica,  las  áreas 
iguales,  por  lo  que: 


son 


La  proporción  por  debajo  de  -1.00  es  igual  a  0.1587. 

Ahora  vamos  a  considerar  la  proporción  de  casos  que  se  encuentran  en  un  intervalo. 

d)  Proporción  de  datos  entre  dos  valores  simétricos  respecto  a  la  media: 
(-1.00  y  +1.00): 


Las  áreas 


son  complementarias,  y  como  la 


curva  es  simétrica,  las  dos  ramas  son  iguales,  por  lo  que  la  proporción  de  datos  fuera  del 
intervalo  es  el  doble  de  la  proporción  de  datos  por  encima  de  +1.00.  Entonces: 

La  proporción  de  datos  entre  -1.00  y  +1.00  es  1-2x0.1587  =  1-0.3174  =  0.6826. 

e)  Proporción  de  datos  entre  dos  valores  positivos:  (+1.00  y  +2.00): 


Esta  proporción  la  podemos  expresar  como  la  proporción  de  datos 
por  encima  de  +1.00  menos  la  proporción  de  datos  por  encima  de  +2.00,  es  decir: 


La  proporción  de  datos  entre  +1.00  y  +2.00  es  0.1587-0.0228=0.1359. 


f)  Proporción  de  datos  entre  dos  valores  negativos:  (-2.00  y  -1.00): 
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Como  la  curva  es  simétrica,  la  proporción  de  datos  entre  -2.00  y  -1.00 


La  proporción  de  datos  entre  -2.00  y  -1.00,  es  0 .1587-0 .0228=0 .1359 . 

g)  Proporción  de  datos  entre  dos  valores  de  distinto  signo:  (-1.00  y  +2.00): 

Usando  los  argumentos  anteriores,  esta  proporción  es  la  diferencia  entre  los  que  están 
por  encima  de  -1.00  y  los  que  están  por  encima  de  +2.00: 


La  proporción  de  datos  entre  -1.00  y  +2.00,  es  (1-0.1587)  -  0.0228=0.8413-0.0228=0.8185. 

Recuerda  que  estamos  usando  todo  el  tiempo  dos  propiedades  básicas  de  la  curva 
Normal: 


■  Es  simétrica  respecto  a  la  media. 

■  El  área  total  bajo  la  curva  vale  1. 


4.3.3.  Obtención  de  valores  críticos 

Del  mismo  modo  que  nos  preguntamos  por  la  proporción  de  observaciones  que  se 
encuentran  en  un  determinado  intervalo  de  valores  tipificados,  nos  podríamos  hacer  la 
pregunta  inversa:  ¿cuál  es  el  valor  tipificado  a  partir  del  cual  se  encuentra  una 
determinada  proporción  de  observaciones? 

Podemos  responder  a  esta  cuestión  utilizando  la  tabla  de  forma  parecida  al  caso  an¬ 
terior. 
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Recordemos  que  las  calificaciones  del  primer  trabajo  se  distribuían  según  una  Normal 
de  media  6.5  y  desviación  típica  1.7,  N(6.5, 1.7). 

Si  queremos  determinar  entre  qué  puntuaciones  se  encuentra  el  60  %  central 
de  las  calificaciones,  haremos  lo  siguiente: 


Como  la  distribución  de  los  valores  observados  y  la  de  los  valores  tipificados  son  equi¬ 
valentes,  usaremos  la  tabla  de  la  iV(0, 1)  para  obtener  los  valores  que  determinan  ese 
intervalo  y  después  desharemos  el  cambio. 


♦ 


Como  la  curva  es  simétrica,  lo  que  necesitamos  es  el  valor  que  deja  un  30%  de  las 
observaciones  entre  el  origen  y  él,  o  lo  que  es  lo  mismo,  el  valor  que  deja  a  su  derecha  un 


Buscamos  en  la  tabla  dicha  proporción 


z 

0.00 

0.01 

0.02 

0.03 

0.04 

0.05 

0.06 

0.07 

0.08 

0.09 

0.0 

0.5000 

0.4960 

0.4920 

0.4880 

0.44 

40 

0.4801 

0.4761 

0.4721 

0.4681 

0.4641 

0.1 

0.4602 

0.4562 

0.4522 

0.4483 

0.+ 

43 

0.4404 

0.4364 

0.4325 

0.4286 

0.4247 

0.2 

0.4207 

0.4168 

0.4129 

0.4090 

0.4( 

52 

0.4013 

0.3974 

0.3936 

0.3897 

0.3859 

0.3 

0.3821 

0.3783 

0.3745 

0.3707 

0.3( 

69 

0.3632 

0.3594 

0.3557 

0.3520 

0.3483 

0.4 

0.3446 

0.3409 

0.3372 

0.3336 

0.32 

00 

0.3264 

0.3228 

0.3192 

0.3156 

0.3121 

0.5 

0.3085 

0.3050 

0.3015 

0.2981 

0.29 

46 

0.2912 

0.2877 

0.2843 

0.2810 

0.2776 

0.6 

0.2743 

0.2709 

0.2676 

0.2643 

0.2( 

11 

0.2578 

0.2546 

0.2514 

0.2483 

0.2451 

0.7 

0.2420 

0.2389 

0.2358 

0.2327 

0.2266 

0.2236 

0.2206 

0.2177 

0.2148 

0.8  - 

I0.-2H9 

0.2090 

■  0.2061 

0.2033  ■ 

[  0.2005) 

0.1977 

0.1949 

0.1922 

0.1894 

0.1867 

0.9 

0.1841 

0.1814 

0.1788 

0.1762 

16 

0.1711 

0.1685 

0.1660 

0.1635 

0.1611 

El  valor  más  cercano  corresponde  al  valor  típico:  0.84. 

(Si  el  valor  buscado  queda  justo  en  medio  de  dos  valores  típicos,  tomamos  la  media 
de  ambos) 

Esto  significa  que  el  60  %  central  de  las  puntuaciones  típicas  se  encuentran  entre  -0.84 
y  +0.84. 

A  nosotros  nos  interesan  las  calificaciones  del  trabajo  y  no  los  valores  típicos,  por  lo 
que  deberemos  deshacer  el  cambio: 
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Como  Z 


X~x 


entonces  X 


s'Z  +  x 


En  nuestro  caso,  el  límite  inferior  será: 

Xinf  =  s'zinf  +  x  =  1.7  x  (—0.84)  +  6.5  =  5.072 


y  el  límite  superior  será: 

xsup  =  s'zsup  +  x  —  1.7  x  (0.84)  +  6.5  =  7.928 


Por  lo  tanto,  el  60%  central  de  las  calificaciones  se  encuentran  entre  5.07  y  7.93. 


Puntuación 


que  no  es  superada  por  el  30  %  de  los  estudiantes. 


Estamos  diciendo  que  el  30  %  de  los  estudiantes  tienen  una  nota  inferior  a  esa. 

Sabemos  que  buscamos  un  valor  típico  negativo  pero,  aprovechando  la  simetría,  po¬ 
demos  buscar: 

A  una  proporción  por  encima  de  0.3,  le  corresponde  un  valor  típico  de  0.52,  entonces, 
el  valor  típico  que  buscamos  es  0  =-0.52  y  la  puntuación  será: 

x  =  s'z  +  x  =  1.7  x  (-0.52)  +  6.5  =  5.616 

Es  decir,  el  30%  de  los  estudiantes  han  obtenido  una  calificación  inferior  a  5.616  en  el 
primer  trabajo. 


4.4.  La  distribución  t  de  Student 


Un  modelo  alternativo  que  se  usará  mucho  en  Inferencia  Estadística  es  la  llamada 

distribución  t  de  Student. 
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TEMA  4.  LA  CURVA  NORMAL 


Esta  curva  es  muy  parecida  a  la  curva  Normal,  N( 0, 1),  pero  depende  de  un  parámetro 
llamado  «grados  de  libertad».  Tiene,  como  la  Normal,  forma  de  campana,  su  media  es 
cero  y  es  simétrica,  pero  su  varianza  es  mayor  que  uno. 

Tiene  la  particularidad  de  que  cuanto  mayor  es  el  parámetro  grados  de  libertad,  más 
se  acerca  la  varianza  a  1  y  por  lo  tanto  más  se  parece  esta  distribución  a  la  distribución 

N(  0,1). 

De  hecho,  cuando  el  número  de  grados  de  libertad  es  mayor  que  30,  la  diferencia  entre 
la  t  de  Student  y  la  N( 0, 1)  se  puede  considerar  despreciable.  Gráficamente: 

littp:  /  /  www.matematicasvisuales.com/html  /  probabilidad  /  varaleat  /  tstudent .  html 


Comparación  entre  la  gráfica  de  la  N( 0, 1)  (azul)  y  la  t  de 
libertad,  t2  (verde). 


Student  con  2  grados  de 


Comparación  entre  la  gráfica  de  la  ÍV(0, 1)  (azul)  y  la  t  de 
libertad,  t5  (amarillo). 


Student  con  5  grados  de 


Comparación  entre  la  gráfica  de  la  N( 0, 1)  (azul)  y  la  t  de  Student  con  20  grados  de 
libertad,  t2o  (rosa). 


Las  proporciones  bajo  la  t  de  Student,  se  calculan  como  sigue: 

Dada  una  proporción  p  y  los  grados  de  libertad  n,  la  tabla  nos  proporciona  el  valor 
típico  correspondiente: 


4.4.  LA  DISTRIBUCION  T  DE  STUDENT 


85 


P{T  >  t}  =  p  =  Área  sombreada 


P 

n 

0.005 

0.01 

0.025 

0.05 

0.10 

0.15 

0.20 

0.25 

0.30 

0.35 

0.40 

0.45 

i 

63.6567 

31.8205 

12.7062 

6.3138 

3.0777 

1.9626 

1.3764 

1.0000 

0.7265 

0.5095 

0.3249 

0.1584 

2 

9.9248 

6.9646 

4.3027 

2.9200 

1.8856 

1.3862 

1.0607 

0.8165 

0.6172 

0.4447 

0.2887 

0.1421 

3 

5.8409 

4.5407 

3.1824 

2.3534 

1.6377 

1.2498 

0.9785 

0.7649 

0.5844 

0.4242 

0.2767 

0.1366 

4 

4.6041 

3.7469 

2.7764 

2.1318 

1.5332 

1.1896 

0.9410 

0.7407 

0.5686 

0.4142 

0.2707 

0.1338 

5 

4.0321 

3.3649 

2.5706 

2.0150 

1.4759 

1.1558 

0.9195 

0.7267 

0.5594 

0.4082 

0.2672 

0.1322 

6 

3.7074 

3.1427 

2.4469 

1.9432 

1.4398 

1.1342 

0.9057 

0.7176 

0.5534 

0.4043 

0.2648 

0.1311 

7 

3.4995 

2.9980 

2.3646 

1.8946 

1.4149 

1.1192 

0.8960 

0.7111 

0.5491 

0.4015 

0.2632 

0.1303 

8 

3.3554 

2.8965 

2.3060 

1.8595 

1.3968 

1.1081 

0.8889 

0.7064 

0.5459 

0.3995 

0.2619 

0.1297 

9 

3.2498 

2.8214 

2.2622 

1.8331 

1.3830 

1.0997 

0.8834 

0.7027 

0.5435 

0.3979 

0.2610 

0.1293 

10 

3.1693 

2.7638 

2.2281 

1.8125 

1.3722 

1.0931 

0.8791 

0.6998 

0.5415 

0.3966 

0.2602 

0.1289 

11 

3.1058 

2.7181 

2.2010 

1.7959 

1.3634 

1.0877 

0.8755 

0.6974 

0.5399 

0.3956 

0.2596 

0.1286 

12 

3.0545 

2.6810 

2.1788 

1.7823 

1.3562 

1.0832 

0.8726 

0.6955 

0.5386 

0.3947 

0.2590 

0.1283 

13 

3.0123 

2.6503 

2.1604 

1.7709 

1.3502 

1.0795 

0.8702 

0.6938 

0.5375 

0.3940 

0.2586 

0.1281 

14 

2.9768 

2.6245 

2.1448 

1.7613 

1.3450 

1.0763 

0.8681 

0.6924 

0.5366 

0.3933 

0.2582 

0.1280 

15 

2.9467 

2.6025 

2.1314 

1.7531 

1.3406 

1.0735 

0.8662 

0.6912 

0.5357 

0.3928 

0.2579 

0.1278 

16 

2.9208 

2.5835 

2.1199 

1.7459 

1.3368 

1.0711 

0.8647 

0.6901 

0.5350 

0.3923 

0.2576 

0.1277 

17 

2.8982 

2.5669 

2.1098 

1.7396 

1.3334 

1.0690 

0.8633 

0.6892 

0.5344 

0.3919 

0.2573 

0.1276 

18 

2.8784 

2.5524 

2.1009 

1.7341 

1.3304 

1.0672 

0.8620 

0.6884 

0.5338 

0.3915 

0.2571 

0.1274 

19 

2.8609 

2.5395 

2.0930 

1.7291 

1.3277 

1.0655 

0.8610 

0.6876 

0.5333 

0.3912 

0.2569 

0.1274 

20 

2.8453 

2.5280 

2.0860 

1.7247 

1.3253 

1.0640 

0.8600 

0.6870 

0.5329 

0.3909 

0.2567 

0.1273 

21 

2.8314 

2.5176 

2.0796 

1.7207 

1.3232 

1.0627 

0.8591 

0.6864 

0.5325 

0.3906 

0.2566 

0.1272 

22 

2.8188 

2.5083 

2.0739 

1.7171 

1.3212 

1.0614 

0.8583 

0.6858 

0.5321 

0.3904 

0.2564 

0.1271 

23 

2.8073 

2.4999 

2.0687 

1.7139 

1.3195 

1.0603 

0.8575 

0.6853 

0.5317 

0.3902 

0.2563 

0.1271 

24 

2.7969 

2.4922 

2.0639 

1.7109 

1.3178 

1.0593 

0.8569 

0.6848 

0.5314 

0.3900 

0.2562 

0.1270 

25 

2.7874 

2.4851 

2.0595 

1.7081 

1.3163 

1.0584 

0.8562 

0.6844 

0.5312 

0.3898 

0.2561 

0.1269 

26 

2.7787 

2.4786 

2.0555 

1.7056 

1.3150 

1.0575 

0.8557 

0.6840 

0.5309 

0.3896 

0.2560 

0.1269 

27 

2.7707 

2.4727 

2.0518 

1.7033 

1.3137 

1.0567 

0.8551 

0.6837 

0.5306 

0.3894 

0.2559 

0.1268 

28 

2.7633 

2.4671 

2.0484 

1.7011 

1.3125 

1.0560 

0.8546 

0.6834 

0.5304 

0.3893 

0.2558 

0.1268 

29 

2.7564 

2.4620 

2.0452 

1.6991 

1.3114 

1.0553 

0.8542 

0.6830 

0.5302 

0.3892 

0.2557 

0.1268 

30 

2.7500 

2.4573 

2.0423 

1.6973 

1.3104 

1.0547 

0.8538 

0.6828 

0.5300 

0.3890 

0.2556 

0.1267 

31 

2.7440 

2.4528 

2.0395 

1.6955 

1.3095 

1.0541 

0.8534 

0.6825 

0.5298 

0.3889 

0.2555 

0.1267 

32 

2.7385 

2.4487 

2.0369 

1.6939 

1.3086 

1.0535 

0.8530 

0.6822 

0.5297 

0.3888 

0.2555 

0.1267 

33 

2.7333 

2.4448 

2.0345 

1.6924 

1.3077 

1.0530 

0.8526 

0.6820 

0.5295 

0.3887 

0.2554 

0.1266 

34 

2.7284 

2.4411 

2.0322 

1.6909 

1.3070 

1.0525 

0.8523 

0.6818 

0.5294 

0.3886 

0.2553 

0.1266 

35 

2.7238 

2.4377 

2.0301 

1.6896 

1.3062 

1.0520 

0.8520 

0.6816 

0.5292 

0.3885 

0.2553 

0.1266 

36 

2.7195 

2.4345 

2.0281 

1.6883 

1.3055 

1.0516 

0.8517 

0.6814 

0.5291 

0.3884 

0.2552 

0.1266 

37 

2.7154 

2.4314 

2.0262 

1.6871 

1.3049 

1.0512 

0.8514 

0.6812 

0.5289 

0.3883 

0.2552 

0.1265 

38 

2.7116 

2.4286 

2.0244 

1.6860 

1.3042 

1.0508 

0.8512 

0.6810 

0.5288 

0.3882 

0.2551 

0.1265 

39 

2.7079 

2.4258 

2.0227 

1.6849 

1.3036 

1.0504 

0.8509 

0.6808 

0.5287 

0.3882 

0.2551 

0.1265 

40 

2.7045 

2.4233 

2.0211 

1.6839 

1.3031 

1.0500 

0.8507 

0.6807 

0.5286 

0.3881 

0.2550 

0.1265 

45 

2.6896 

2.4121 

2.0141 

1.6794 

1.3006 

1.0485 

0.8497 

0.6800 

0.5281 

0.3878 

0.2549 

0.1264 

50 

2.6778 

2.4033 

2.0086 

1.6759 

1.2987 

1.0473 

0.8489 

0.6794 

0.5278 

0.3875 

0.2547 

0.1263 

55 

2.6682 

2.3961 

2.0040 

1.6730 

1.2971 

1.0463 

0.8482 

0.6790 

0.5275 

0.3873 

0.2546 

0.1262 

60 

2.6603 

2.3901 

2.0003 

1.6706 

1.2958 

1.0455 

0.8477 

0.6786 

0.5272 

0.3872 

0.2545 

0.1262 

65 

2.6536 

2.3851 

1.9971 

1.6686 

1.2947 

1.0448 

0.8472 

0.6783 

0.5270 

0.3870 

0.2544 

0.1262 

70 

2.6479 

2.3808 

1.9944 

1.6669 

1.2938 

1.0442 

0.8468 

0.6780 

0.5268 

0.3869 

0.2543 

0.1261 

75 

2.6430 

2.3771 

1.9921 

1.6654 

1.2929 

1.0436 

0.8464 

0.6778 

0.5266 

0.3868 

0.2542 

0.1261 

80 

2.6387 

2.3739 

1.9901 

1.6641 

1.2922 

1.0432 

0.8461 

0.6776 

0.5265 

0.3867 

0.2542 

0.1261 

85 

2.6349 

2.3710 

1.9883 

1.6630 

1.2916 

1.0428 

0.8459 

0.6774 

0.5264 

0.3866 

0.2541 

0.1260 

90 

2.6316 

2.3685 

1.9867 

1.6620 

1.2910 

1.0424 

0.8456 

0.6772 

0.5263 

0.3866 

0.2541 

0.1260 

95 

2.6286 

2.3662 

1.9853 

1.6611 

1.2905 

1.0421 

0.8454 

0.6771 

0.5262 

0.3865 

0.2541 

0.1260 

100 

2.6259 

2.3642 

1.9840 

1.6602 

1.2901 

1.0418 

0.8452 

0.6770 

0.5261 

0.3864 

0.2540 

0.1260 

125 

2.6157 

2.3565 

1.9791 

1.6571 

1.2884 

1.0408 

0.8445 

0.6765 

0.5257 

0.3862 

0.2539 

0.1259 

150 

2.6090 

2.3515 

1.9759 

1.6551 

1.2872 

1.0400 

0.8440 

0.6761 

0.5255 

0.3861 

0.2538 

0.1259 

200 

2.6006 

2.3451 

1.9719 

1.6525 

1.2858 

1.0391 

0.8434 

0.6757 

0.5252 

0.3859 

0.2537 

0.1258 

300 

2.5923 

2.3388 

1.9679 

1.6499 

1.2844 

1.0382 

0.8428 

0.6753 

0.5250 

0.3857 

0.2536 

0.1258 

00 

2.5758 

2.3263 

1.9600 

1.6449 

1.2816 

1.0364 

0.8416 

0.6745 

0.5244 

0.3853 

0.2533 

0.1257 
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TEMA  4.  LA  CURVA  NORMAL 


Si  observamos  la  tabla,  veremos  que  con  ella  podemos  hacer  aún  menos  aproximaciones 
que  en  el  caso  de  la  Normal  (hay  muy  pocos  valores  de  p). 

Veamos  algunos  ejemplos: 


1.  Determina  la  proporción  de  observaciones  que  están  por  encima  del  valor  1  para 
una  t  de  Student  con  16  grados  de  libertad. 

Buscamos  en  la  fila  correspondiente  a  n=16  el  valor  más  próximo  a  1  (1.0711), 
que  nos  da  una  p=0.15.  Entonces:  la  proporción  buscada  es  0.15  ,  el  15  %  de  las 
observaciones. 

2.  Determina  la  proporción  de  observaciones  que  están  por  debajo  del  valor  2.53  para 
una  t  de  Student  con  20  grados  de  libertad. 

Buscamos  en  la  fila  correspondiente  a  n=20  el  valor  más  próximo  a  2.53  (2.5280), 
que  nos  da  una  p=0.01.  Esto  significa  que  0.01  es  la  proporción  de  observaciones  por 
encima  de  dicho  valor.  Entonces:  la  proporción  buscada  es  1-0.01=0.99,  es  decir  el 
99  %  de  las  observaciones. 

3.  Determina  la  proporción  de  observaciones  que  están  por  encima  del  valor  -0.7  para 
una  t  de  Student  con  7  grados  de  libertad. 

Para  los  valores  negativos  aprovecharemos  la  simetría  de  la  gráfica:  el  área  por 
encima  de  -0.7  es  igual  al  área  por  debajo  de  0.7,  entonces: 

Buscamos  en  la  fila  correspondiente  a  n=7  el  valor  más  próximo  a  0.7  (0.7111),  que 
nos  da  una  p=0.25.  Esto  significa  que  0.25  es  la  proporción  de  observaciones  por 
encima  de  dicho  valor.  Entonces:  la  proporción  buscada  es  1-0.25=0.75,  es  decir  el 
75  %  de  las  observaciones. 

4.  Determina  qué  valor  de  una  t  de  Student  con  50  grados  de  libertad  deja  a  su  derecha 
un  área  de  0.25. 

Buscamos  en  la  fila  de  n=50  la  intersección  con  la  columna  p=0.25  y  obtenemos  el 
valor  buscado:  0.6794. 

5.  Determina  qué  valor  de  una  t  de  Student  con  22  grados  de  libertad  verifica  que  el 
área  encerrada  entre  este  valor  y  0.2564  es  exactamente  0.1. 

Si  hacemos  el  dibujo  (siempre  ayuda  mucho),  podemos  observar  que  el  área  por 
encima  del  valor  buscado  es  igual  a  0.1  más  el  área  por  encima  de  0.2564. 

El  área  por  encima  de  0.2564  en  una  t  de  Student  con  22  grados  de  libertad  es  0.4, 
y  por  lo  tanto,  el  área  por  encima  del  valor  buscado  es  0.4+0. 1=0.5.  Esto  significa 
que  el  valor  que  estamos  buscando  es  cero. 

6.  Determina  qué  valor  de  una  t  de  Student  con  40  grados  de  libertad  verifica  que  el 
área  encerrada  entre  -1.05  y  este  valor  es  exactamente  0.7. 

Volvemos  al  dibujo.  Podemos  observar  que  el  área  por  debajo  del  valor  buscado  es 
igual  a  0.7  más  el  área  por  debajo  de  -1.05. 


4.4.  LA  DISTRIBUCION  T  DE  STUDENT 
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Aprovechando  la  simetría,  sabemos  que  el  área  por  debajo  de  -1.05  es  igual  al  área 
por  encima  de  1.05.  Buscamos  en  la  tabla  dicha  área  para  una  t  de  Student  con  40 
grados  de  libertad  y  obtenemos  p=0.15.  Entonces: 

El  área  por  debajo  del  valor  buscado  es  igual  a  0.7+0.15=0.85,  lo  que  significa  que 
el  área  por  encima  es  0.15.  Por  lo  tanto  el  valor  buscado  es:  1.05. 


Notas: 

1.  Siempre  que  hagamos  cálculos  con  las  tablas  (tanto  de  la  Normal  como  de  la  t  de 
Student),  es  muy  recomendable  hacer  el  dibujo  correspondiente  para  entender  lo 
que  calculamos  y  no  equivocarnos. 

2.  Los  programas  estadísticos  sí  que  nos  permiten  obtener  las  probabilidades  o  los 
valores  críticos  en  cualquier  situación. 


Tema  5 


Probabilidad  y  variables  aleatorias 


Vamos  a  intentar  abordar  ahora  una  situación  no  determinista. 

En  la  mayoría  de  las  situaciones  con  las  que  trabajaremos,  vamos  a  tener  que  tomar 
decisiones  y  sacar  conclusiones  aceptando  un  cierto  riesgo,  un  cierto  nivel  de  incertidumbre 
que  viene  dado  por  el  hecho  de  que  en  nuestro  estudio  no  podemos  predecir  exactamente 
el  resultado  de  un  experimento  o  no  podemos  realizarlo  tantas  veces  como  sería  deseable. 

Si  lanzamos  una  moneda  al  aire  (no  trucada),  no  sabemos  qué  va  a  ocurrir.  Sin  em¬ 
bargo,  nos  interesa  poder  describir  cuál  es  el  comportamiento  de  los  resultados  del  expe¬ 
rimento  «lanzar  una  moneda». 

Vamos  a  introducir  algunas  definiciones  que  nos  permitan  abordar  estas  situaciones 
para  poder  describirlas. 

A  los  experimentos  de  este  tipo,  en  los  cuales  no  se  puede  predecir  cuál  va  a  ser  el 
resultado,  se  les  denomina  experimentos  aleatorios,  a  cada  uno  de  los  posibles  resul¬ 
tados  del  mismo  se  le  denomina  suceso  elemental  y  al  conjunto  de  todos  los  posibles 
resultados  del  experimento,  se  le  denomina  espacio  muestral  y  se  le  suele  denotar  por 
E  o  por 

■  Cada  subconjunto  del  espacio  muestral  es  un  suceso,  y  puede  ser  elemental  o  com¬ 
puesto. 

Ejemplo:  si  lanzamos  un  dado,  A=sacar  un  3={3}  es  un  suceso  elemental  y  B=sacar 
un  número  mayor  que  3={4,  5,6}  es  un  suceso  compuesto. 
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TEMA  5.  PROBABILIDAD  Y  VARIABLES  ALEATORIAS 


■  Al  suceso  que  ocurre  siempre  se  le  llama  suceso  seguro  y  coincide  con  el  espacio 
muestral. 

Ejemplo:  A  =sacar  un  número  del  1  al  6  al  lanzar  un  dado=Q. 


■  Al  suceso  que  no  puede  ocurrir  nunca  se  le  llama  suceso  imposible  y  se  denota 
por  el  vacío  (0). 

Ejemplo:  A  =sacar  un  8  al  lanzar  un  dado=$. 


■  Llamaremos  suceso  contrario  o  complementario  de  un  suceso  A,  a  lo  que  ocurre 
cuando  no  ocurre  A. 

Ejemplo:  si  A  es  el  suceso  sacar  un  3  al  lanzar  un  dado:  A={3},  entonces  Ac=no 
sacar  un  3,  es  decir:  AC={1,2,4,5,6} 


Q 


Es  decir:  Ac  =  —  A 


5.1.  Operaciones  con  sucesos 


Entre  los  sucesos  se  pueden  establecer  las  siguientes  operaciones: 


Unión  de  sucesos 

Dados  dos  sucesos  A  y  B,  llamaremos  suceso  unión  de  Ay  B,  al  suceso  formado  por 
todos  los  sucesos  elementales  de  A  y  de  B: 


Es  el  suceso  que  ocurre  cuando  ocurre  A  o  i?  o  los  dos  y  se  denota  como  A  (J  B. 
Ejemplo:  si  al  lanzar  un  dado,  A  =  {3, 4}  y  B  =  sacar  un  número  par  =  {2, 4,  6}, 
entonces  A  |J  B  =  {2,3, 4,  6} 


5.1.  OPERACIONES  CON  SUCESOS 
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Intersección  de  sucesos 

Dados  dos  sucesos  Ay  B,  llamaremos  suceso  intersección  de  A  y  B,  al  suceso  formado 
por  todos  los  sucesos  elementales  comunes  a  A  y  a  B\ 


Es  el  suceso  que  ocurre  cuando  ocurren  A  y  B  a  la  vez  y  se  denota  como  Af]  B. 
Ejemplo:  si  al  lanzar  un  dado,  A  =  {3, 4}  y  B  =  sacar  un  número  par  =  {2, 4,  6}, 
entonces  A  i"ib  =  {4}. 

Los  sucesos  que  no  pueden  ocurrir  a  la  vez  se  llaman  sucesos  incompatibles  y  su 
intersección  es  el  suceso  imposible. 

Ejemplo:  si  al  lanzar  un  dado,  A  =  {3}  y  B  =  sacaran  número  par  =  {2,4,6}, 
entonces  A  P|  B  —  0. 


Diferencia  de  sucesos 

Dados  dos  sucesos  A  y  B,  llamaremos  diferencia  A  —  B,  al  suceso  formado  por  todos 
los  sucesos  elementales  de  A  que  no  están  en  B. 


Es  el  suceso  que  ocurre  cuando  ocurre  A  pero  no  ocurre  B:  A  —  B  =  A  f]Bc 
Ejemplo:  si  al  lanzar  un  dado,  áL={3,4}  y  B=sacar  un  número  par={2,4,6},  entonces 

A  -  B  =  {3}  y  B  -  A  =  {2,  6} 
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TEMA  5.  PROBABILIDAD  Y  VARIABLES  ALEATORIAS 


Es  interesante  observar  que:  A  —  B  =  A  —  (Af)B) 


5.2.  Probabilidad 


Al  estudiar  los  experimentos  aleatorios,  aunque  no  sabemos  cuál  va  a  ser  el  resultado, 
sí  que  el  sentido  común,  o  la  intuición,  nos  indica  que  hay  unos  resultados  que  tienen  más 
posibilidades  de  ocurrir  que  otros.  Vamos,  entonces,  a  intentar  plasmar  esta  idea  intuitiva. 
Es  decir,  vamos  a  determinar  la  probabilidad  de  que  ocurra  un  determinado  suceso. 

Una  forma  de  obtener  la  probabilidad  «teórica»,  no  basada  en  los  resultados  del  expe¬ 
rimento,  es  la  llamada  probabilidad  clásica  o  Regla  de  Laplace. 

Si  todos  los  resultados  de  un  experimento  tienen  la  misma  posibilidad  de  ocurrir, 
entonces,  la  probabilidad  de  ocurrencia  de  un  suceso  A  será: 


P(A) 


número  de  casos  favorables  a  A 
número  de  casos  posibles 


Ejemplo:  Consideremos  el  experimento  lanzar  un  dado. 

Nuestro  espacio  muestra!  es  Í2={1,  2,  3,  4,  5,  6}  y,  si  el  dado  no  está  trucado,  suponemos 
que  todos  los  sucesos  tienen  la  misma  posibilidad  de  ocurrir.  Entonces  podemos  calcular: 


P(5) 


número  de  casos  favorables  a  5 
número  de  casos  posibles 


\  =  0.16 
o 


número  de  casos  favorables  a  par  3 

Pipar)  =  - 7 - - - yq - =  -  =  0.5 

numero  de  casos  posibles  o 


Otra  forma  de  obtener  una  probabilidad  es  la  probabilidad  «empírica»  o  frecuen- 
tista. 

Una  vez  comprobados  algunos  resultados  experimentales,  se  define  la  probabilidad 

de  ocurrencia  de  un  suceso  A  como: 

número  de  veces  que  ha  ocurrido  A 

)  —  - - - - - : — : - 

numero  de  repeticiones 

(es  la  frecuencia  relativa  de  A). 

Cuando  el  número  de  repeticiones  es  bajo,  esta  probabilidad  «empírica»  puede  ser 
bastante  incorrecta,  mientras  que,  a  medida  que  aumentamos  el  número  de  repeticiones,  el 
valor  de  la  probabilidad  se  estabiliza  y  se  va  aproximando,  cada  vez  más  a  la  probabilidad 
«teórica». 

Ejemplo:  si  lanzamos  un  dado  y  contamos  las  veces  que  ha  salido  un  2: 
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N°  de  lanzamientos 

50 

100 

150 

200 

300 

400 

500 

N°  de  2 

4 

13 

24 

34 

51 

64 

80 

P(2)=  frecuencia  relativa 

0.08 

0.13 

0.16 

0.17 

0.17 

0.16 

0.16 

Estas  ideas  se  pueden  formalizar  dando  la  siguiente  definición  axiomática  de  la 
probabilidad: 

Una  distribución  de  probabilidad  es  una  función  que  asigna  a  cada  suceso  posible 
un  número  en  el  intervalo  [0,1],  con  las  siguientes  propiedades: 

1.  Para  todo  suceso  A  :  P(A)  >  0 

2.  La  probabilidad  del  suceso  seguro  es  1:  P(D)  =  1 

3.  Si  A  y  B  son  dos  sucesos  incompatibles  (A(^\B  —  0),  entonces: 

P(A\JB)  =  P(Á)  +  P(B) 


De  esta  definición  se  deducen  las  siguientes  consecuencias: 

1.  Si  Ac  es  el  suceso  contrario  de  A,  entonces:  P(AC )  =  1  —  P(A) 

2.  P(0)  =  0 

3.  Dados  dos  sucesos  Ay  B  cualesquiera:  P(A[jB)  =  P{A )  +  P(B)  —  P(A[}B) 


4.  Podemos  generalizar  el  axioma  3:  Si  A  =  A1  (J  A2  U  •••  U  >  siendo  estos  sucesos 
incompatibles  2  a  2,  entonces: 

P(A)  =  P(Ai  {JA2  U  •••  U  An)  =  P(Ai)  +  P(A2)  +  ...  +  P(An) 

5.3.  Probabilidades  condicionadas 

Nos  podemos  plantear  cuál  será  la  probabilidad  de  cierto  suceso  B ,  sabiendo  que  ha 
sucedido  otro  suceso  A.  Por  ejemplo,  se  lanza  un  dado  y  nos  dicen  que  el  resultado  es 
impar  ¿cuál  es  la  probabilidad  de  que  sea  un  3? 

Esta  probabilidad  se  conoce  como  probabilidad  condicionada,  y  se  calcula  de  la 
siguiente  manera: 
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La  probabilidad  del  segundo  suceso,  B,  dado  que  conocemos  que  ha  ocurrido  el  primer 
suceso,  A,  o  bien,  la  probabilidad  del  suceso  B  condicionado  a  que  ha  ocurrido  el  suceso 
A  es: 

P(B \A)  =  ^ ,  siendo  P(A)  >  0 

Ejemplo: 

i  \  -P(3  e  impar )  P( 3)  }■  1 

P  (impar )  P  (impar )  |  3 

De  aquí  se  deduce  la  fórmula  de  la  probabilidad  compuesta:  La  probabilidad  de 
que  ocurran  dos  sucesos  Ay  B  simultáneamente  es  la  probabilidad  de  que  ocurra  uno  por 
la  probabilidad  de  que  ocurra  el  otro  dado  que  ha  ocurrido  el  primero: 

P(Af\B)  =  P(A)P(B\A )  =  P(B)P(A\B) 


Diremos  que  dos  sucesos  son  independientes  cuando  la  ocurrencia  del  primero  no 
cambia  la  probabilidad  de  que  ocurra  el  segundo. 

P(B  |  A)  =  P(B )  ,  o  bien  P(A  \  B )  =  P(A) 

Como  consecuencia,  si  dos  sucesos  son  independientes:  P(Af]B)  =  P(A)P(B ) 


5.4.  Variables  aleatorias 


Cuando  realizamos  un  experimento,  tenemos  un  espacio  muestra!  (con  todos  los  resul¬ 
tados,  sucesos  elementales,  posibles). 


Lina  variable  aleatoria,  es  una  función  que  asocia  a  cada  suceso  elemental  un  número 
perfectamente  definido. 


C:D 


R 


Por  ejemplo,  en  el  caso  de  lanzar  2  monedas,  podemos  estudiar  el  número  de  caras  y 
entonces  asociar  números  a  los  resultados: 

(c,  c)  — >  2;  (c,  x)  — >  1;  (x,  c )  — >  1;  (x,  x)  — »■  0 


Llamaremos  función  de  distribución  de  una  variable  aleatoria  a  una  función  F, 

F  :  R  — >  [0, 1],  que  asocia  a  cada  valor  x  la  probabilidad  de  que  la  variable  aleatoria 
tome  un  valor  menor  o  igual  que  x:  F(x)  =  P((  <  x ). 

F(x ),  es  la  «probabilidad  acumulada»  hasta  x. 

Ejemplo:  en  el  caso  anterior,  F( 0)  =  1/4  ;  -F(l)  =  3/4  ;  F( 2)  =  1 

En  general:  P(a  <  (  <  b)  =  F(b)  —  F(a) 


5.4.  VARIABLES  ALEATORIAS 
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Para  seguir  con  el  análisis,  debemos  distinguir  dos  tipos  de  variables  aleatorias:  las 
discretas  y  las  continuas. 

Llamaremos  variable  aleatoria  discreta,  a  una  variable  aleatoria  cuyo  soporte  (con¬ 
junto  de  valores  posibles)  es  un  conjunto  discreto  (finito  o  numerable). 

Ejemplo:  la  variable  aleatoria  anterior  es  discreta.  Su  soporte  es  el  conjunto  {0, 1,2}, 
que  es  un  conjunto  finito. 

Llamaremos  variable  aleatoria  continua,  a  una  variable  aleatoria  cuyo  soporte 
(conjunto  de  valores  posibles)  NO  es  un  conjunto  discreto  (intuitivamente,  este  conjunto 
será  entonces  un  intervalo  de  números  reales). 

Ejemplo:  la  variable  aleatoria  que  asigna  a  cada  persona  extraída  de  una  población  su 
peso,  es  una  variable  aleatoria  continua  ya  que  podemos  considerar  como  posibles  todos 
los  valores  del  intervalo  (0,300). 


En  el  caso  de  las  variables  aleatorias  discretas,  vamos  a  construir  una  función  asociando 
a  cada  uno  de  los  valores  de  la  variable  aleatoria,  su  probabilidad: 

Si  tenemos  una  variable  aleatoria  discreta  (,  que  toma  los  valores  aq, . . .  ,xn,  entonces: 

f(xi)  =  P(  C  =  Xi)  =  Vi- 

Además  se  cumple  que:  f{x\)  +  f(x-¿)  H - +  f(xn)  =  1 

A  esta  función  /  que  acabamos  de  construir,  se  le  llama  función  de  probabilidad 
o  función  de  cuantía  de  una  variable  aleatoria  de  tipo  discreto. 

Ejemplo:  en  el  caso  anterior,  /(O)  =  1/4  ;  /( 1)  =  2/4  =  1/2  ;  /( 2)  =  1/4 

Ejemplo:  Si  lanzamos  un  dado  al  aire,  la  variable  aleatoria  asociada  a  este  experimento 
tomará  los  valores:  1,  2,  3, 4,  5, 6  y  la  probabilidad  de  cada  uno  de  estos  resultados  es  1/6. 


La  función  de  probabilidad  /,  es  tal  que: 


/( 1)  =  P(C  =  1)  =  1/6 

/( 2)  =  P(C  =  2)  =  1/6 

/(3)  =  P(C  =  3)  =  1/6 

m  =  p«  =  4)  =  i/6 

/( 5)  =  P(C  =  5)  =  1/6 

/(6)  =  P(C  =  6)  =  1/6 

Y  se  cumple  que:  /( 1)  +  /( 2)  +  ■  •  •  +  /( 6)  =  1 

Para  cualquier  otro  valor,  la  función  de  probabilidad  vale  cero. 


/(2-5)  =  P(C  =  2.5)  =  0 

Si  calculamos  la  función  de  distribución  F  para  los  valores  anteriores,  obtenemos: 


P(l)  =  P(C  <  1)  =  1/6 

F( 2)  =  P( /  <  2)  =  2/6 

P(3)  =  P(C  <  3)  =  3/6 

F(4)  =  P(C  <  4)  =  4/6 

P(5)  =  P(C  <  5)  =  5/6 

F(6)  =  P(C  <  6)  =  6/6  =  1 

En  el  resto  de  los  puntos,  se  calcula  de  forma  análoga: 


F{ 2.5)  =  P{ C  <  2.5)  =  P{ C  =  1)  +  P{ C  =  2)  =  2/6  =  1/3 
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Entonces,  para  conocer  cuál  es  la  probabilidad  de  que  al  lanzar  un  dado  obtengamos 
una  puntuación  mayor  que  2  y  menor  o  igual  que  5,  podríamos  hacerlo  de  dos  formas: 

Mediante  la  función  de  probabilidad: 

P(2  <  C  <  5)  =  P( C  =  3)  +  P{ C  =  4)  +  P(C  =  5)  =  3  x  1/6  =  1/2 


O  usando  la  función  de  distribución: 

P(2  <  C  <  5)  =  F(5)  -  F( 2)  =  5/6  -  2/6  =  3/6  =  1/2 


Cuando  observamos  tiempos,  longitudes,  etc...,  la  variable  aleatoria  resultante  es  una 

variable  aleatoria  continua. 

En  este  caso,  en  lugar  de  utilizar  la  función  de  probabilidad  o  de  cuantía,  se  usa  la 
llamada  función  de  densidad  de  probabilidad,  que  es  una  función  tal  que  el  área 
comprendida  bajo  la  curva,  entre  dos  puntos,  es  precisamente  la  probabilidad  entre  esos 
dos  puntos. 

Para  que  una  función  pueda  ser  la  función  de  densidad  de  una  variable  aleatoria 
continua  tiene  que  cumplir  : 


■  /(x)  >  0,  para  cualquier  valor  x  de  la  variable. 

■  El  área  total  encerrada  entre  el  eje  horizontal  y  la  curva  /(x),  vale  1. 


Sabemos  que  F(x)  =  <  x).  Gráficamente,  P(x)  es  el  área  encerrada  bajo  la  curva 

/(x),  desde  —  oo  hasta  x: 


Como  consecuencia,  P(x i  <  (  <  X2 )  =  P(x 2)  —  F(x  1) 


5.5.  ESPERANZA  MATEMÁTICA 
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Nota:  en  el  caso  de  las  variables  continuas,  la  probabilidad  de  que  la  variable  aleatoria 
tome  un  valor  concreto  es  cero  (P(C  —  x)  —  0),  y  en  consecuencia: 

P(x  1  <  c  <  x2)  =  P(x  1  <  C  <  x2)  =  F(x 2)  -  F(x i) 

sin  embargo,  esto  no  es  cierto  en  el  caso  de  las  variables  aleatorias  discretas  (utilizamos 
aquí  los  datos  del  último  ejemplo): 

P{ 2  <  (  <  5)  =  P{ C  =  3)  +  P( C  =  4)  +  P(C  =  5)  =  3  x  1/6  =  1/2 
mientras  que: 

P(2  <  C  <  5)  =  P(C  =  3)  +  P(C  =  4)  =  2  x  1/6  =  1/3 

5.5.  Esperanza  matemática 

El  concepto  de  esperanza  matemática,  como  otros  muchos  de  la  teoría  de  la  probabi¬ 
lidad,  tiene  su  origen  en  los  juegos  de  azar.  Los  jugadores  deseaban  conocer  cuál  era  su 
esperanza  de  ganancias  o  pérdidas  cuando  participaban  repetidamente  en  un  juego.  En 
este  sentido,  el  valor  esperado  representa  la  cantidad  de  dinero  promedio  que  el  jugador 
espera  ganar  o  perder  después  de  un  gran  número  de  partidas. 

Supongamos  el  siguiente  juego: 

El  jugador  lanza  un  dado,  y:  si  sale  un  1  el  jugador  gana  1  euro,  si  sale  un  2  gana  4 
euros,  si  sale  un  3  gana  5  euros,  si  sale  un  4  no  gana  ni  pierde  nada,  si  sale  un  5  pierde  2 
euros  y  si  sale  un  6  pierde  6  euros. 

Vamos  a  calcular  el  valor  esperado  de  las  ganancias  o  pérdidas  en  el  juego: 

La  variable  aleatoria  ganancias  en  el  juego  toma  los  valores  {-6,  -2,  0,  1,  4,  5},  y  como 
los  valores  del  dado  son  equiprobables,  la  probabilidad  de  cada  uno  de  estos  valores  es 
1/6.  _ 


Valor  del  dado 

1 

2 

3 

4 

5 

6 

Probabilidad 

1/6 

1/6 

1/6 

1/6 

1/6 

1/6 

Ganancia 

1 

4 

5 

0 

-2 

-6 

Entonces,  la  ganancia  esperada,  después  de  un  número  grande  de  partidas,  se  obtiene 
sumando  los  productos  de  cada  valor  de  la  ganancia  por  la  probabilidad  de  obtenerla.  Es 
decir,  en  este  juego: 
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Ganancia  esperada=l  x  |+4x  |  +  5x  ^  +  0x  ^  +  (-2)  x  g  +  (-6)  x  |  =  2x  |  |  =  0.3  euros 

La  ganancia  esperada  puede  ser  positiva,  negativa  o  cero;  en  el  primer  caso  diremos 
que  el  juego  es  favorable  al  jugador,  en  el  segundo  que  es  un  juego  desfavorable  y  si  la 
ganancia  esperada  es  cero  diremos  que  es  un  juego  justo. 

Es  importante  destacar  que  el  valor  de  la  esperanza  no  tiene  por  qué  ser  un  valor 
posible  de  la  variable,  lo  que  significa  que  una  variable  aleatoria  puede  que  nunca  tome  el 
valor  de  su  esperanza. 

Este  concepto  también  se  utiliza  en  situaciones  que  nada  tienen  que  ver  con  los  juegos 
de  azar,  así  podemos  hablar  de  la  esperanza  de  vida  de  las  mujeres  o  del  tiempo  esperado 
de  permanencia  en  una  consulta.  Estos  valores  esperados  hay  que  interpretarlos  como  un 
promedio  y  no  se  pueden  aplicar  a  un  individuo  en  particular. 

Si  trasladamos  este  concepto  a  las  variables  aleatorias,  podemos  interpretar  la  es¬ 
peranza  matemática  de  una  variable  aleatoria,  como  su  promedio  o  valor  esperado, 
después  de  realizar  un  gran  número  de  pruebas  del  experimento  al  que  está  asociada, 
de  modo  que  tenemos  la  siguiente  definición  (la  damos  solo  en  el  caso  de  una  variable 
aleatoria  discreta): 

Si  consideramos  una  variable  aleatoria  de  tipo  discreto,  (,  con  función  de  probabilidad 
Pi  =  =  Xi ),  para  todo  i  =  1, . . .  n,  entonces  definimos  la  esperanza  matemática,  o 

valor  esperado,  o  media  de  como: 


n 

E[Q  =  E  = 

1=1 


(Podemos  entender  la  esperanza  como  un  promedio  de  la  variable) 

Del  mismo  modo  que  hemos  definido  la  esperanza,  podemos  definir  la  varianza  de 
una  variable  aleatoria  de  tipo  discreto: 

Dada  una  variable  aleatoria  de  tipo  discreto,  (,  que  tiene  función  de  probabilidad 
Pi  =  P((  =  Xi),  para  todo  i  —  1, . . .  n ,  entonces  llamamos  varianza  de  (,  al  valor: 

Var(C)  =  <?2  =  E[((  —  p)2] 


Se  puede  comprobar  que  se  cumple: 


Var(C)  =  -  h2  =  E[C]  -  E[(}2 

1=1 


Llamaremos  desviación  típica  de  (  a  la  raíz  cuadrada  positiva  de  la  varianza. 

u  =  DT(C)  =  +v^ 


5.6.  LA  PROBABILIDAD  Y  LA  CURVA  NORMAL 


99 


5.6.  La  probabilidad  y  la  curva  Normal 


Muchas  de  las  funciones  de  densidad  de  variables  aleatorias  de  tipo  continuo  tienen 
como  representación  gráfica  la  campana  de  Gauss,  son  las  llamadas  distribuciones  nor¬ 
males.  Una  distribución  Normal,  está  determinada  cuando  se  conocen  su  media  (¿u)  y  su 
desviación  típica  (a),  y  se  denota  por:  N(¡i,a). 

La  función  de  densidad  /(x),  de  una  distribución  Normal,  viene  dada  por  la 
siguiente  expresión  (cuya  gráfica  es  la  campana  de  Gauss): 

1  (3=-/U2 

- ~—e  2a2 


donde: 

/(x )  es  la  densidad  de  un  determinado  valor 
x  es  un  valor  cualquiera  de  la  variable 
/r  es  la  media  de  la  distribución 
o  es  la  desviación  típica  de  la  distribución 
ti  es  la  constante:  3.14159... 
e  es  la  constante:  2.71828... 

Recordemos  que  esta  función  está  definida  y  es  continua  en  (— oo,+oo),  es  simétrica 
respecto  a  la  media  (/r),  tiene  un  máximo  en  x  —  ¡i  y  el  eje  de  abscisas  es  una  asíntota 
horizontal  (por  mucho  que  se  acerque  en  los  extremos,  la  curva  nunca  llega  a  tocar  el  eje). 

Para  obtener  la  <  a),  utilizaremos  la  función  de  distribución: 

P( C  <  a)  —  F(a )  =  área  bajo  la  curva  hasta  a: 


a 
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Calcular  la  probabilidad  mediante  áreas  no  es  fácil,  pero  ya  conocemos  las  tablas  de 
la  distribución  7V(0, 1)  que  nos  dan  la  proporción  de  observaciones  por  encima  de  un 
determinado  valor  a,  lo  qne  en  términos  de  variables  aleatorias  significa  que  nos 
dan  la  probabilidad  de  que  la  variable  aleatoria  tome  un  valor  por  encima  de 
a. 


Entonces,  para  calcular  las  probabilidades  de  una  variable  aleatoria  que  siga 
cualquier  distribución  iV(/i,  a),  en  primer  lugar,  tipificaremos  (haciendo  un  cambio 
de  variable  para  obtener  otra  variable  aleatoria  también  Normal,  pero  con  media  0  y 
desviación  típica  1),  y  a  continuación  usaremos  las  tablas  de  la  ÍV(0, 1)  que  ya  conocemos. 


Tema  6 


Introducción  a  la  Inferencia 
Estadística 


Como  ya  comentamos  al  principio  de  la  asignatura,  con  la  Estadística  no  solo  queremos 
describir  el  comportamiento  de  una  variable  o  característica  de  una  población,  sino  que 
también  la  utilizaremos  para  tomar  decisiones  respecto  a  toda  la  población  basándonos 
en  los  resultados  obtenidos  para  una  muestra. 

Si  en  lugar  de  trabajar  con  toda  la  población  estamos  trabajando  con  una  muestra, 
es  muy  importante  que  no  confundamos  las  características  de  una  y  otra,  así  la  media 
y  la  desviación  típica  muéstrales  las  denotaremos  por  x  y  s',  mientras  que  la  media  y  la 
desviación  típica  poblacionales  las  denotaremos  por  ¡i  ya  respectivamente. 


6.1.  Distribución  de  la  media  muestral 


Vamos  a  comenzar  planteando  el  tema  de  la  estimación  de  la  media  (/r)  de  una  variable 
para  una  población. 

La  población  es  tan  grande  que  no  podemos  abordarla  en  su  totalidad,  y  por  lo  tanto, 
solo  podemos  trabajar  con  los  resultados  obtenidos  a  partir  de  una  muestra. 

Supongamos  que  queremos  determinar  la  altura  media  de  los  estudiantes  de  la  Uni¬ 
versidad  de  La  Rioja.  No  vamos  a  poder  medirlos  a  todos,  así  que  elegimos,  al  azar,  a  30 
estudiantes,  los  medimos  y  calculamos  la  media  de  las  alturas.  Obtenemos  como  altura 
media:  177.32  ern,  con  una  cuasidesviación  típica  (para  estos  30  datos)  de  12.98  cm. 

¿Nos  atreveríamos  a  decir  que  la  altura  media  de  los  estudiantes  de  la  Universidad  de 
La  Rioja  es  de  177.32  cm? 

¿Qué  ocurre  si  tomamos  otras  muestras,  también  de  tamaño  30? 


Muestra 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

Media 

177.32 

175.06 

178.30 

178.26 

179.47 

173.61 

175.83 

179.18 

180.12 

177.18 

Cuasidesviación 

típica 

12.98 

11.96 

11.65 

13.46 

9.75 

13.03 

13.32 

13.14 

12.12 

11.01 

101 


102 


TEMA  6.  INTRODUCCIÓN  A  LA  INFERENCIA  ESTADÍSTICA 


Como  podemos  observar,  para  cada  muestra  obtenemos  unos  valores  diferentes,  pero 
estos  valores,  que  podemos  considerar  como  observaciones  de  la  variable  aleatoria  media 
muestra l,  siguen  también  una  distribución. 

Se  puede  demostrar  que  la  variable  aleatoria  media  muestral  (esa  variable  cuyos  valores 
son  las  medias  obtenidas  de  cada  una  de  las  posibles  muestras  de  tamaño  n),  tiene  la 
siguiente  distribución: 

Si  tenemos  una  población  en  la  que  la  variable  considerada  sigue  una  distribución 
Normal,  7V(/q  cr),  y  extraemos  muestras  de  tamaño  n,  entonces,  la  variable  aleatoria  media 
muestral,  sigue  una  distribución: 

c-  ~  i V(„,  j=) 


Notad  que  estamos  diciendo  que  la  variable  aleatoria  media  muestral  tiene  como  media 
(esperanza)  la  media  poblacional  (/i).  El  valor  esperado  de  la  media  muestral  es  la 
media  poblacional. 

La  desviación  típica  de  la  media  muestral  se  conoce  como  error  estándar  o  error  típico 
de  la  media  (standard  error  of  the  mean:  SE). 

El  resultado  anterior  también  es  cierto  (aproximadamente)  cuando  la  distribución  en 
la  población  no  es  Normal,  siempre  que  el  tamaño  de  las  muestras  sea  suficientemente 
grande: 

Teorema  central  del  límite:  Si  se  toman  muestras  de  tamaño  n  (n>30)  de  una 
población  con  una  distribución  cualquiera,  de  media  ¡i  y  desviación  típica  cr,  entonces,  la 
distribución  de  la  variable  aleatoria  media  muestral  sigue,  aproximadamente,  una  distri¬ 
bución  Normal: 

c  ~  N(¡i,  4=) 

Jn 


Si  tipificamos  esta  variable,  obtendremos  otra  variable  con  distribución  ÍV(0, 1),  que 
nos  permitirá  realizar  inferencias  sobre  /q  cuando  la  desviación  típica  poblacional,  cr,  es 

conocida. 


Es  decir: 


Si  la  población  sigue  una  distribución  Normal  en  la  variable  considerada  o  el 
tamaño  de  las  muestras  es  suficientemente  grande  (n>30)  entonces,  para  realizar 
inferencias  sobre  q,  cuando  la  desviación  típica  poblacional,  a ,  es  conocida, 
usaremos  el  siguiente  estadístico: 


cr  /  ^Jñ 


~  ÍV(0, 1) 


En  la  práctica,  la  varianza  poblacional  no  es  conocida  (si  no  conocemos  la  media,  lo 
más  probable  es  que  tampoco  conozcamos  la  varianza). 


Entonces  el  estadístico  anterior  no  nos  sirve  ya  que  depende  de  un  parámetro  desconoci¬ 
do.  Para  resolver  el  problema  usaremos  el  siguiente  resultado  que  utiliza  la  cuasidesviación 
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típica  muestra!  en  lugar  de  la  desviación  típica  poblacional: 

Si  se  toman  muestras  de  tamaño  n  de  una  población  que,  para  la  variable  consi¬ 
derada,  sigue  una  distribución  Normal  de  media  /i  (que  queremos  estimar),  y  la 

desviación  típica  poblacional,  cr,  es  desconocida,  entonces: 


s/y/ñ 

( s  es  la  cuasidesviación  típica  muestra!). 


6.2.  Intervalo  de  confianza  para  la  media 


Hemos  visto  cómo  se  distribuye  la  media  muestral,  pero  no  olvidemos  que  a  nosotros 

lo  que  nos  interesa  es  poder  hacer  una  estimación  de  la  media  poblacional  a  partir 
de  los  resultados  de  una  muestra. 

Lo  que  vamos  a  hacer  es,  partiendo  de  los  resultados  obtenidos  para  la  muestra,  cons¬ 
truir  un  intervalo  en  el  que  «confiamos»  que  se  encuentre  la  media  poblacional. 

Llamaremos  nivel  de  confianza  al  porcentaje  de  confianza  que  tenemos  al  hacer 
la  estimación  (también  se  puede  expresar  en  términos  de  probabilidad  como  1  —  a),  o 
bien,  podemos  hablar  también  del  nivel  de  significación,  a,  que  no  es  otra  cosa  que  la 
probabilidad  de  error  que  estamos  dispuestos  a  asumir  en  la  estimación. 

Estos  dos  conceptos  son  complementarios:  Si  estamos  dispuestos  a  asumir  una  proba¬ 
bilidad  de  error  de  a  =  0.05  (5%  de  error),  entonces,  nuestro  nivel  de  confianza  será  del 
95%  (ó  0.95  en  términos  de  probabilidad). 

Por  otra  parte,  queda  claro  que  cuanto  mayor  sea  el  error  admitido,  menor  será  el 
nivel  de  confianza. 

La  distribución  de  la  media  muestral  para  poblaciones  normales  o  muestras  grandes, 
con  varianza  conocida  es: 

C  ~  nít,  —/=) 

\  n 
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Buscamos  un  intervalo,  en  torno  a  la  media,  que  encierre  una  probabilidad  del  90  % 
(por  ejemplo). 

Este  intervalo  será  aquel  que  cumpla  que: 

P{|C  —  fi\  <  a:}  =  0.9,  cuando  £  N (/b  -i) 

yW 


Para  establecer  los  límites  de  este  intervalo,  tenemos  que  calcular  el  valor,  para  una 
jV(/í,  ^j),  que  deja  a  su  derecha  una  probabilidad  igual  a  a/2.  Para  hacerlo  primero 
tipificamos,  con  lo  que  tenemos  que: 

z  =  ! 7^~Ar(°>1) 

o/yjn 


-Za/2 


0 


Zo/2  —  Zo.05—  1  -645 
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Entonces,  si  para  la  Z  —  /Nj=  ,  el  intervalo  de  confianza,  con  un  nivel  de  confianza 
1-a,  es  {—za/2,zaf2),  esto  significa  que: 


Por  lo  tanto: 


Cuando  trabajamos  con  poblaciones  en  las  que  la  variable  sigue  una  distribución 
Normal,  o  con  muestras  grandes,  y  además  la  varianza  poblacional  es 
conocida,  el  intervalo  de  confianza  para  la  media,  /i,  con  un  nivel  de  confianza 
1  —  a  es: 


donde,  za¡ 2  es  el  valor  de  la  N( 0, 1),  que  deja  a  su  derecha  una  probabilidad  igual 
a  a/2. 

Cuando  la  varianza  poblacional  no  es  conocida,  no  podemos  calcular  este  intervalo. 
En  ese  caso  usaremos  el  siguiente  resultado  que  se  obtiene  siguiendo  un  razonamiento 
análogo  para  una  t  de  Student: 

Cuando  trabajamos  con  poblaciones  en  las  que  la  variable  sigue  una  distribución 

Normal,  y  la  varianza  poblacional  es  desconocida,  el  intervalo  de  confianza 
para  la  media,  ¡i,  con  un  nivel  de  confianza  1  —  a  es: 


donde,  tn-i,a/2  es  el  valor  de  la  t  de  Student  con  n-1  grados  de  libertad,  que  deja 
a  su  derecha  una  probabilidad  igual  a  cc/2. 

De  ahora  en  adelante  trabajaremos  en  este  supuesto  (varianza  poblacional  desconoci¬ 
da). 

Aunque  el  error  que  estamos  dispuestos  a  admitir  puede  cambiar,  los  valores  más 
habituales  son:  1%,  5%  y  10%  (a=0.01,  0.05  y  0.1  respectivamente). 

Por  ejemplo,  para  una  t  de  Student  con  29  grados  de  libertad,  estas  situaciones  son: 


t:  [2.756386  g  Grados  de  t:  |2  045230  g  Grados  de  t|  1,6991 27  g  Grados  de 


1  *F°5  |  p:  [5 - § 


Función  de  densidad: 


Función  de  densidad: 


Función  de  densidad: 


(donde  t  es  el  valor  de  tn_ i]0,/2  =  ¿29,0/2  y  p  —  a) 
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Una  vez  que  hemos  establecido  el  error  máximo  que  estamos  dispuestos  a  admitir 
en  nuestra  estimación,  podemos  establecer  que  la  media  poblacional  se  encuentra  en  el 
intervalo:  IC  —  x  ±  EM  ,  donde  EM  es  el  error  muestral. 

(el  error  muestral  es  la  desviación  respecto  al  parámetro) 

En  el  ejemplo  de  las  medias:  para  la  última  muestra  de  tamaño  30,  teníamos  que  la 
media  observada  (media  de  la  muestra)  era  x  =  177.18  ,  con  una  cuasidesviación  típica 
muestral  de  s  =  11.01. 

Entonces,  el  intervalo  de  confianza  para  la  media  poblacional  con  un  nivel  de  confianza 
del  90  %  será: 

o=0.1:  IC(n )  =  177.18  ±  1.699127^  =  177.18  ±  3.415486 

Es  decir  que,  estimamos  que  la  media  poblacional  se  encuentra  dentro  del  intervalo 
(173.7645,  180.5955),  con  un  nivel  de  confianza  del  90%. 

Los  intervalos  de  confianza  para  la  media  con  los  otros  niveles  de  significación  más 
habituales  son: 

o=0. 01:  IC(/i)  =  177.18  ±  2.756386^§  =  177.18  ±  5.540727 

Es  decir  que,  estimamos  que  la  media  poblacional  se  encuentra  dentro  del  intervalo 
(171.6393,  182.7207),  con  un  nivel  de  confianza  del  99%. 

a=0.05:  IC{n)  =  177.18  ±  2.04523^§  =  177.18  ±  4.111202 

Es  decir  que,  estimamos  que  la  media  poblacional  se  encuentra  dentro  del  intervalo 
(173.0688,  181.2912),  con  un  nivel  de  confianza  del  95%. 


6.3.  Contraste  de  hipótesis 


En  muchas  ocasiones,  el  objetivo  de  nuestro  análisis  será  corroborar  empíricamente 
alguna  hipótesis  inicial  sobre  la  población  objeto  de  estudio.  Muestra  de  ello  pueden  ser 
las  siguientes  situaciones: 

1.  Las  especificaciones  del  fabricante  indican  que  la  vida  media  de  una  batería  es 
de  4  años.  Lina  organización  de  consumidores  mantiene  que  la  vida  media  de  la 
batería  es  sensiblemente  menor,  y  para  comprobarlo  experimentalmente,  realizará  un 
seguimiento  sobre  40  usuarios  de  este  tipo  de  baterías. 

2.  El  Ministerio  de  Cultura  de  un  país  sostiene  que  el  60  %  de  los  votantes  apoyaría  un 
incremento  en  el  presupuesto  de  este  ministerio,  pero  el  gobierno  no  está  dispuesto  a 
modificar  dicho  presupuesto  salvo  que  esa  afirmación  pueda  ser  corroborada  científi¬ 
camente.  Con  tal  objetivo,  el  ministerio  de  cultura  opta  por  hacer  una  encuesta  a 
2000  personas. 

3.  Un  centro  de  investigación  afirma  que  dispone  de  una  vacuna  contra  la  malaria  más 
eficiente  que  la  desarrollada  por  el  Dr.  Patarroyo.  Esta  vacuna  fue  probada  sobre 
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38  voluntarios  del  Cuerpo  de  Paz  que  fueron  a  un  país  tropical  en  el  que  estaban 
especialmente  expuestos  a  la  enfermedad.  A  la  mitad  se  les  inoculó  la  vacuna  del 
Dr.  Patarroyo  y  a  la  otra  mitad  la  nueva  vacuna.  De  los  que  recibieron  la  nueva 
vacuna  15  se  libraron  de  contraer  la  malaria,  mientras  que  de  los  que  recibieron  la 
vacuna  del  Dr.  Patarroyo,  solamente  11. 


Podemos  observar  que  en  todos  los  casos,  hay  una  afirmación  sobre  los  parámetros 
poblacionales  y  se  toma  una  muestra  para,  con  los  resultados  obtenidos  para  la  misma, 
avalar  o  rechazar  dicha  afirmación. 

En  esencia  éste  es  el  planteamiento  general  de  lo  que  en  Inferencia  Estadística  se 
conoce  como  pruebas  o  contrastes  de  hipótesis. 


■  Se  formula  una  hipótesis  sobre  la  población. 

■  Se  experimenta  (la  propia  hipótesis  nos  sugiere  cómo  realizar  el  muestreo). 

■  Se  decide  si  los  resultados  obtenidos  para  la  muestra  apoyan  estadísticamente  la 
hipótesis  de  partida. 

Dado  que  nos  movemos  en  condiciones  de  incertidumbre,  esta  última  decisión  se  de¬ 
berá  tomar  en  términos  probabilísticos,  es  decir,  si  los  resultados  obtenidos  para  la  muestra 
tienen  una  alta  probabilidad  cuando  la  suposición  de  partida  es  cierta,  entonces  no  te¬ 
nemos  evidencia  en  contra  de  dicha  suposición  (aceptamos  la  hipótesis  de  partida).  Pero 
si  los  resultados  obtenidos  para  la  muestra  son  poco  probables  cuando  suponemos  que  la 
hipótesis  de  partida  es  cierta,  entonces,  esto  nos  lleva  a  rechazar  dicha  hipótesis. 

Veamos  cómo  desarrollar  todo  esto.  En  primer  lugar  vamos  a  definir  una  serie  de 
términos: 


Hipótesis  nula  (H0)  es  la  hipótesis  que  queremos  contrastar.  Es  la  hipótesis  que  el 
experimentador  asume  como  correcta. 

Hipótesis  alternativa  (H\)  es  la  negación  de  la  hipótesis  nula  (es  lo  que  aceptamos 
cuando  rechazamos  la  hipótesis  nula) 

Estadístico  de  contraste  (o  medida  de  discrepancia)  es  cualquier  función  de  los  da¬ 
tos  muéstrales  y  del  parámetro  especificado  por  la  hipótesis  nula,  con  distribución 
conocida  cuando  H0  es  cierta. 


Esta  metodología,  en  la  que  la  toma  de  decisiones  está  basada  en  los  resultados  obte¬ 
nidos  con  una  muestra,  puede  conducir  a  dos  tipos  de  errores: 


Decisión 

Aceptar  H0 

Rechazar  //(l 

Realidad 

H0  verdadera 

Correcto  (1  —  a) 

Error  de  tipo  I  (a) 

II a  falsa 

Error  de  tipo  II  (/ 3 ) 

Correcto  (1  —  (3  ) 
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A  la  probabilidad  de  rechazar  la  hipótesis  nula  cuando  es  falsa  (1  —  ¡3)  se  le  llama 
potencia  del  contraste. 

A  la  probabilidad  de  rechazar  la  hipótesis  nula  cuando  es  verdadera  (a)  se  le  llama 
nivel  de  significación. 

Para  construir  y  resolver  un  contraste  de  hipótesis,  se  siguen  los  pasos  siguientes: 


1.  Enunciar  la  hipótesis  nula  ( H0 )  y  la  hipótesis  alternativa  (H i). 

Ambas  hipótesis  deben  ser  excluyentes.  La  hipótesis  nula  es  la  que  se  considera 
como  cierta.  La  hipótesis  alternativa  es  la  que  aceptaremos  solo  si  la  muestra  nos 
proporciona  «suficiente  evidencia  en  contra»  de  la  hipótesis  nula. 

Dependiendo  de  la  formulación  de  la  hipótesis  alternativa,  el  contraste  puede  ser 
unilateral  o  bilateral. 


2.  Determinar  el  nivel  de  significación. 

Recordemos  que  el  nivel  de  significación  (a)  es  el  nivel  de  error  de  tipo  I  que  estamos 
dispuestos  a  aceptar.  Los  valores  más  habituales  son:  0.01,  0.05  y  0.1. 

En  muchas  ocasiones  se  habla  de  nivel  de  confianza:  1  -a  (y  se  expresa  en%). 


3.  Determinar  el  estadístico  apropiado  para  la  prueba  y  la  zona  de  rechazo 
(llamada  también  región  crítica). 

Estos  estadísticos  vienen  dados  por  la  distribución  muestral  del  estadístico  objeto 
de  estudio. 


Una  vez  que  conocemos  esa  distribución,  suponiendo  que  H0  es  cierta,  tenemos  que 
determinar  la  zona  de  rechazo  de  la  hipótesis  nula. 


Esta  zona  es  el  conjunto  de  valores  posibles  del  estadístico  que  son  tan  extremos 
que  la  probabilidad  de  que  ocurran,  cuando  H0  es  cierta,  es  muy  pequeña  (menor 
que  a). 


En  el  caso  de  la  N(0, 1): 


X:  |-1 .281552  media.  c 


X  ¡1.281552  ¡g  media:  [ÍT 


(*  [Ó*i  ettdesv  [T* 

Función  de  densidad  Fir 


X  |1  644854  gj  media:  |Ó“ 


(De  forma  análoga  se  obtiene  con  otras  distribuciones) 

La  región  que  no  es  zona  de  rechazo  se  llama:  región  de  aceptación. 


4.  Calcular  el  estadístico. 

Con  los  datos  observados  de  la  muestra  y  suponiendo  que  la  hipótesis  nula,  H0,  es 
cierta,  calculamos  el  estadístico  y  la  probabilidad  de  encontrar  un  valor  más  alejado 
del  parámetro  que  el  que  hemos  calculado  (p- valor). 
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5.  Tomar  la  decisión  e  interpretarla. 

Aceptaremos  H0  si  el  p- valor  es  mayor  que  el  nivel  de  significación  (o). 


Si  el  p- valor  es  mayor  que  el  nivel  de  significación  esto  es  equivalente  a  decir  que  el 
valor  del  estadístico  que  hemos  calculado  está  en  la  región  de  aceptación  de  i/o- 

¡Ojo!,  no  es  suficiente  con  decir  «se  acepta  i/0»,  hay  que  explicar  lo  que  significa 
aceptar  o  rechazar  la  hipótesis  nula  para  el  nivel  de  significación  considerado. 


6.4.  Contraste  de  hipótesis  para  la  media 


Queremos  contrastar  que  la  media  poblacional  toma  el  valor  p0. 


Para  ello,  tomamos  una  muestra,  y  planteamos  el  siguiente  contraste  (bilateral): 


H0:/¿  =  //„ 

H i 

n.  significación :  a 


Si  los  resultados  muéstrales  no  nos  proporcionan  evidencia  en  contra  de  la  hipótesis 
nula,  aceptaremos  i/0,  y  en  caso  contrario  la  rechazaremos. 

¿Cómo  comprobamos  esta  evidencia? 

Conocemos  la  distribución  de  la  media  muestral  cuando  la  distribución  de  la  variable 
poblacional  es  Normal: 

C-P  , 

/  / -  ^  ^71—1 

S/y/n 

Con  los  datos  de  la  muestra  (como  suponemos  que  H0  es  cierta),  calculamos  el  valor 
de  prueba: 


x  -  po 
s/y/ñ 


y  su  p- valor:  p  =  P{|T|  >  t,  dado  que  T  ~  í„_i} 


Entonces,  aceptaremos  H0  si  p  >  o  (no  hay  evidencia  en  contra  de  la  hipótesis  nula). 

En  algunos  casos,  lo  que  nos  plantearemos  no  es  un  valor  concreto  del  parámetro  sino 
si  el  parámetro  toma  un  valor  mayor  o  menor  que  un  valor  dado  (Ej.:  vida  media  de  una 
pila  mayor  que  3  años). 

En  estos  casos  el  procedimiento  es  análogo.  Solo  hay  que  tener  cuidado  al  plantear 
la  hipótesis  nula  (es  la  que  consideramos  como  cierta  y  queremos  contrastar). 


Podemos  plantear  dos  situaciones: 
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H  o  '•  R-  Ro 

Hl  :  /i  >  p0 
n.  significación :  a 

Entonces: 


+  _  x  -  no 
"  _  s/y/E 

■  p- valor:  p  =  P{T  >  t,  dado  que  T  ~  í„_i} 

■  Aceptaremos  H0  si  p  >  a 


O  bien: 

H0:r>R0 
//,  :/i<Ro 
n.  significación :  a 

Entonces: 

x-  p0 
"  8/ y/H 

■  p- valor:  p  =  P{T  <  t,  dado  que  T  ~  ín-i} 

■  Aceptaremos  H0  si  p  >  a 


Nota:  en  muchas  ocasiones  los  programas  de  tratamiento  estadístico  solo  hacen  con¬ 
trastes  bilaterales,  en  estos  casos,  si  usamos  el  p- valor  para  aceptar  o  rechazar  una  hipótesis 
de  un  contraste  unilateral,  consideraremos  que: 


■  Si  el  signo  de  t  es  el  contrario  al  de  la  zona  de  rechazo:  Se  acepta  H0  ,  ya  que  hay 
una  gran  evidencia  a  su  favor  (estamos  en  la  cola  contraria). 

■  Si  t  tiene  el  signo  de  la  zona  de  rechazo:  Se  acepta  Ho  si  p/2  >  a 


Un  estudio  análogo  al  realizado  con  la  media  muestral  se  puede  realizar  para  la  pro¬ 
porción  muestral. 
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Relación  entre  el  contraste  de  hipótesis  y  el  intervalo  de  confianza 

Los  contrastes  de  hipótesis  y  los  intervalos  de  confianza  tienen  una  estrecha  relación. 

Para  un  determinado  nivel  de  confianza,  esta  relación  podríamos  expresarla  diciendo 
que  «El  intervalo  de  confianza  está  formado  por  todos  los  valores  del  parámetro  que  se 
aceptarían  en  un  contraste  de  hipótesis  bilateral». 

Dicho  de  otra  forma,  cualquier  valor  del  parámetro  que  se  encuentre  dentro  del  in¬ 
tervalo  de  confianza  dará  lugar  a  un  valor  del  estadístico  que  se  encuentra  dentro  de  la 
región  de  aceptación  en  el  contraste  de  hipótesis  bilateral  correspondiente. 

Por  lo  tanto,  en  el  caso  de  la  media  poblacional  tenemos  que: 

Si  con  los  datos  de  la  muestra,  /¿0  G  ICi-a(n )  entonces,  si  planteamos  el  contraste  de 
hipótesis: 

Hq  :  ¡a  =  Ho 

H\  :  n  do 

con  nivel  de  significación  a 

y  lo  queremos  resolver  apoyándonos  en  los  datos  de  la  misma  muestra,  el  resultado  será  que 
debemos  aceptar  la  hipótesis  nula.  Es  decir,  que  el  valor  /i0  es  un  valor  aceptable  para  la 
media  poblacional,  para  el  nivel  de  significación  dado,  a. 

Si  por  el  contrario  /i0  ^  JCÍ_a(/i),  entonces,  deberemos  rechazar  la  hipótesis  nula.  Es 
decir  que  el  valor  /i0  no  es  un  valor  aceptable  para  la  media  poblacional,  para  el  nivel  de 
significación  dado,  a. 


6.5.  Distribución  de  la  proporción  muestral 


En  muchas  ocasiones  nos  interesará  estimar  no  el  valor  medio  de  un  conjunto  de  obser¬ 
vaciones  sino  la  proporción  de  veces  que  ocurre  un  determinado  fenómeno  (por  ejemplo: 
la  proporción  de  votantes  a  un  partido  político). 

Es  decir,  queremos  estimar  el  valor  de  la  proporción  poblacional  (p),  a  partir  de  los 
resultados  obtenidos  con  una  muestra  de  tamaño  n. 

Siguiendo  un  razonamiento  análogo  al  utilizado  para  determinar  la  distribución  de  la 
media  muestral  (tomando  muchas  muestras  de  tamaño  n,  calculando  la  proporción  para 
cada  una  de  ellas  y  estudiando  la  distribución  de  la  variable  proporción  muestral ,  p), 
llegamos  a  que: 

Cuando  n  es  grande  (n  >  30),  la  distribución  de  la  proporción  muestral  es  una  Normal: 


P(1  ~P) 
n 


p  ~  N  p, 
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o  lo  que  es  equivalente: 


p  —  p 


p(i-p) 


~  N(Q,  1) 


6.5.1.  Intervalo  de  confianza  para  una  proporción 

Haciendo  lo  mismo  que  en  el  caso  de  la  media  poblacional,  para  calcular  el  intervalo 
de  confianza  de  la  proporción  poblacional,  con  un  nivel  confianza  1  —  a  (o  un  nivel  de 
significación  a),  tenemos  que: 


IC(p)  =  p±  Za/2 


p(l~p) 


n 


p{l-p)  „  PÓ~p) 

P  -  Za/2\  - ,p  +  Za/2' 


n 


n 


Este  intervalo  no  lo  podemos  calcular  ya  que  depende  del  parámetro  p  que  queremos 
estimar. 


Lo  que  hacemos  es  utilizar  para  el  cálculo,  la  proporción  muestra!  en  lugar  de  la 
proporción  poblacional.  Entonces: 

Cuando  n  es  suficientemente  grande  (n  >  30),  el  intervalo  de  confianza  para  la 
proporción  poblacional,  con  un  nivel  de  significación  a,  es: 

Tn/  ^  ^  ¡pÓ~p)  ( .  IP0--P)  .  ,  IpÓ~p)\ 

IC{p)=p±Za/2\¡ - - -  =  \p-Za/2\¡ - - - ,P  +  Za/2]J - - -  1 

NOTACIÓN:  za/2  es  el  valor  de  una  IV(0, 1)  que  deja  a  la  derecha  una  probabi¬ 
lidad  a/2 

También  nos  podemos  poner  en  la  peor  situación  posible  y  determinar  el  intervalo  de 
confianza  más  grande  posible,  para  un  nivel  de  confianza  1-cc,  que  es  el  que  se  obtiene 
cuando  p=l/2. 


En  esa  situación: 


Cuando  n  es  suficientemente  grande  (n  >  30),  el  intervalo  de  confianza  más 
grande  posible  para  la  proporción  poblacional,  con  un  nivel  de  significación  a, 
es: 


IC(p)  =p±  za/2 

NOTACIÓN:  za/2  es  el  valor  de  una  1V(0, 1)  que  deja  a  la  derecha  una  probabi¬ 
lidad  a/2 


Para  los  niveles  de  significación  más  habituales,  los  valores  de  za/2,  son: 
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X  ¡1.644854  g  media  fo"" 
pc  [oTil  ^  estdesv  fl” 

Función  de  densidad:  Furo 

TV  , 

Veamos  un  ejemplo: 

Si  basándonos  en  una  muestra  (altura  de  30  estudiantes)  queremos  determinar  la 
proporción  de  estudiantes  universitarios  con  una  altura  superior  a  180  cm,  deberíamos 
hacer  lo  siguiente: 


X:  1 2.575829  g  metía  [Ó”  X.  1 1.959364 

p:  jo.01|  ostdesv.:  fT"  pe  |d05 


Función  de  densidad 


Fuñe 


1.  Observamos  lo  que  ocurre  en  la  muestra:  5  de  los  estudiantes  tienen  una  altura 
superior  a  los  180  cm. 

Esto  significa  que  la  proporción  muestra!  es:  p  =  A  =  0.16 

2.  Determinamos  el  nivel  de  error  que  estamos  dispuestos  a  aceptar  y  construimos  el 
intervalo  de  confianza  correspondiente.  Así: 


■  Si  a  =  0.1: 


IC{p)  =  —  ±  1.6448541 


_5_  25 
30  30 

30 


IC(p)  =  (0.05475,0.27858) 


3.  Interpretamos  el  resultado: 

Basándonos  en  los  resultados  de  la  muestra,  estimamos  con  un  nivel  de  confianza 
del  90  %,  que  la  proporción  poblacional  de  estudiantes  con  una  altura  mayor  que 
180  cm  se  encuentra  dentro  del  intervalo:  (0.05475,  0.27858)  (o  lo  que  es  lo  mismo, 
entre  el  5.475  %  y  el  27.858  %). 


Los  intervalos  de  confianza  para  otros  niveles  de  significación  son: 


Si  a  =  0.01: 


IC(p)  =  -±2.5758291 


_5_  25 
30  30 

30 


Es  decir  que,  basándonos  en  los  resultados  de  la  muestra,  estimamos  con  un  nivel  de 
confianza  del  99%,  que  la  proporción  poblacional  de  estudiantes  con  una  altura  mayor 
que  180  cm  se  encuentra  dentro  del  intervalo:  (-0.008596,  0.341930). 

Este  resultado  teóricamente  está  bien,  pero  como  la  proporción  no  puede  ser  negativa, 
podemos  utilizar  el  intervalo:  (0,  0.34193). 

Es  decir  que  estimamos,  con  un  nivel  de  confianza  del  99  %,  que  la  proporción  pobla¬ 
cional  de  estudiantes  con  una  altura  mayor  que  180  cm  es  menor  que  el  34.193  %. 
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Sia  =  0.05: 


IC(p)  =  —  ±  1.959964^ 


JL25 
30  30 

30 


Es  decir  que,  basándonos  en  los  resultados  de  la  muestra,  estimamos  con  un  nivel  de 
confianza  del  95%,  que  la  proporción  poblacional  de  estudiantes  con  una  altura  mayor 
que  180  cm  se  encuentra  dentro  del  intervalo:  (0.03331,  0.30003)  (o  lo  que  es  lo  mismo, 
entre  el  3.331  %  y  el  30.003  %). 

Nota:  la  mayoría  de  los  programas  de  tratamiento  estadístico  no  calculan  los  intervalos 
de  confianza  para  una  proporción,  en  ese  caso,  tendremos  que  calcularlos  nosotros. 


6.5.2.  Contraste  de  hipótesis  para  una  proporción 


Nota:  en  este  apartado ,  para  no  confundir  la  proporción  poblacional  ,p,  con  el  p- valor, 
a  este  último  lo  llamaremos  siempre  p- valor. 

Queremos  contrastar  que  la  proporción  poblacional  toma  el  valor:  p0. 

Para  ello,  tomamos  una  muestra,  y  planteamos  el  siguiente  contraste  (bilateral): 


Ho:P  =  Po 
H\  '■  P  *  P0 
n.  significación :  a 


Si  los  resultados  muéstrales  no  nos  proporcionan  evidencia  en  contra  de  la  hipótesis 
nula,  aceptaremos  H0 ,  y  en  caso  contrario  la  rechazaremos. 

¿Cómo  comprobamos  esta  evidencia? 

Conocemos  la  distribución  de  la  proporción  muestral  cuando  n  es  suficientemente 
grande: 


P-P 


p(i-p) 

n 


~  N( 0, 1) 


Entonces,  para  nuestra  muestra  y  suponiendo  que  H0  es  cierta,  calculamos: 


p-po 


po(l-po) 

TI 


y  su  p- valor  es:  p- valor  =  P{\Z\  >  z,  donde  Z  rsj  mi)} 


(p  es  la  proporción  muestral) 

Entonces,  aceptaremos  H0  si  p-valor>  a  (no  hay  evidencia  en  contra  de  la  hipótesis 
nula). 
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En  algunos  casos,  lo  que  nos  plantearemos  no  es  un  valor  concreto  del  parámetro  sino 
si  el  parámetro  toma  un  valor  mayor  o  menor  que  un  valor  dado  (Ej.:  proporción  de 
votantes  menor  que  el  60%). 

En  estos  casos  el  procedimiento  es  análogo.  Solo  hay  que  tener  cuidado  al  plantear  la 
hipótesis  nula  (es  la  que  consideramos  como  cierta  y  queremos  contrastar). 


Podemos  plantear  dos  situaciones: 

H0:p<p0 
H\  :  p  >  p0 
n.  significación :  a 


Entonces: 

P-Po 


í 


po(l-po) 

n 


,  y  su  p- valor  es:  p-valor=  P{Z  >  z,  donde  Z  r\j  7V(0,1)} 


Aceptaremos  Hq  si  p- valor  >  a 
O  bien, 


H0:p>p0 
H\  ■  P  <  P0 
n.  significación :  a 


Entonces: 

P-Po 


z  = 


í 


po(l-po) 


y  su  p- valor  es:  p- valor =  P{Z  <  z,  donde  Z  N(  0,1)} 


Aceptaremos  H0  si  p-valor>  a 


6.6.  Contraste  de  igualdad  (o  diferencia)  de  medias 


Los  contrastes  anteriores  se  referían  al  valor  del  parámetro  poblacional,  es  decir,  se 
contrasta  si  se  puede  aceptar  o  no  que  el  parámetro  poblacional  toma  un  determinado 
valor,  pero  en  muchas  ocasiones  lo  que  nos  interesa  es  contrastar  si  dos  muestras  provienen 
de  poblaciones  en  las  que  la  variable  tiene  la  misma  media  (contrastaremos  la  igualdad 
de  medias). 

En  este  caso  vamos  a  proceder  igual  que  en  los  casos  anteriores,  aunque  no  justifica¬ 
remos  los  estadísticos  de  contraste. 

Estos  estadísticos  los  veremos  solamente  a  título  informativo  ya  que  los 
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problemas  correspondientes  los  resolveremos  con  el  ordenador. 

Queremos  contrastar  si  dos  poblaciones  tienen,  para  la  variable  objeto  de  estudio,  la 
misma  media.  O  dicho  de  otra  forma,  si  existen  diferencias,  estadísticamente  significativas 
entre  dos  medias  muéstrales. 

Para  ello,  tomaremos  dos  muestras  (una  de  cada  población),  que  no  tienen  por  qué  ser 
del  mismo  tamaño:  £i,  Cn  y  £1, ...,  .  Estas  muestras  deben  ser  aleatorias. 

Distinguiremos  las  siguientes  situaciones: 


■  Si  las  muestras  son  pareadas. 

En  este  caso  las  muestras  sí  que  tienen  que  ser  del  mismo  tamaño.  Este  sería  el  caso 
de  dos  características  estudiadas  para  el  mismo  individuo  (por  ejemplo,  tensión  antes 
y  después  de  un  tratamiento).  En  la  práctica  lo  que  se  hace,  en  lugar  de  contrastar 
si  las  medias  son  iguales,  es  contrastar  si  la  variable  diferencia  de  estas  dos  variables 
tiene  media  cero.  Por  lo  tanto  este  caso  se  reduce  a  un  contraste  de  una  media  (con 
todas  sus  condiciones  de  validez). 

■  Si  las  muestras  son  independientes  la  una  de  la  otra. 

Este  caso  corresponde  a  la  comparación  de  las  medias  de  una  misma  variable  para 
dos  grupos  independientes  de  casos  (estudiar  si  se  puede  aceptar  que  existen  dife¬ 
rencias  estadísticamente  significativas  entre  los  salarios  medios  de  dos  categorías  de 
empleados  -o  entre  los  tiempos  medios  de  fabricación  de  una  pieza  en  el  turno  de 
mañana  y  en  el  de  tarde  -). 


El  procedimiento  para  realizar  los  contrastes  de  igualdad  de  medias  es  el  mismo  que 
en  los  dos  casos  anteriores.  Las  distribuciones  utilizadas  para  establecer  el  estadístico  de 
contraste  dependen  de  las  características  de  las  variables  observadas: 


Poblaciones  Normales  o  poblaciones  cualesquiera  cuando  tenemos  muestras  grandes 
y  las  varianzas  poblacionales  son  conocidas: 


Ci  —  C2  —  (/¿i  —  R2) 


yi  +  yt 


N(  0,1) 


■  Poblaciones  Normales  y  las  varianzas  poblacionales  son  desconocidas  pero  podemos 
aceptar  que  son  iguales: 


Ci  —  C2  —  iíM_  ~  +2) 

sJh  +  h 


t 


n+m— 2 


donde:  Sp  = 


l)s?  +  [m 


l)sl 


(si  y  s2  son  las  cuasivarianzas  muéstrales). 


n  +  m  —  2 


6. 7.  CONTRASTE  DE  IG  UALDAD  (O  DIFERENCIA )  DE  PROPORCIONES  1 1 7 

6.7.  Contraste  de  igualdad  (o  diferencia)  de  propor¬ 
ciones 

En  el  caso  del  contraste  para  la  diferencia  de  proporciones,  seguiremos  el  mismo  pro¬ 
cedimiento  que  en  los  casos  anteriores. 

El  estadístico  de  contraste  que  utilizaremos  se  basa  en  el  siguiente  resultado: 

Si  tenemos  muestras  grandes  se  cumple  que: 

/Pl(l-Pl)  i  P2(1~P2) 
y  n  m 

Como  las  proporciones  poblacionales  p\  y  P2  son  desconocidas,  para  calcular  el  es¬ 
tadístico  de  contraste  se  suelen  utilizar,  en  el  denominador,  las  proporciones  muéstrales, 
Pi  y  P2- 

En  muchas  ocasiones,  como  la  hipótesis  nula  supone  que  las  proporciones  poblacionales 
son  iguales  (H0  :  pi  =  p2  =  p),  se  utiliza  una  única  estimación  de  la  proporción  poblacional 
común: 

„  np  i  +  mp  2 

P  = - : - - 

n  +  m 

En  este  caso  el  estadístico  de  contraste  será: 

P\  p2  ,  ,  .  np  i  +  mp2 
z  =  — donde  p  =  - 

s/pNTñDT)  n+m 


6.8.  Ejemplos  resueltos 

1.  Se  desea  investigar  la  superficie  (en  m2)  de  los  pisos  en  venta  en  el  mercado  inmobi¬ 
liario  de  nuestra  ciudad.  Para  ello  se  cuenta  con  la  información  proporcionada  por 
una  muestra  aleatoria  de  31  viviendas: 


SUPERFICIE  (en  m2) 

85.8 

49.2 

65.7 

58.3 

65.2 

52.9 

87.2 

90.3 

51.6 

69.4 

75.9 

70.3 

76.0 

71.9 

65.2 

82.3 

70.9 

70.8 

74.6 

52.1 

34.1 

81.9 

86.1 

76.1 

55.4 

63.2 

105.1 

59.9 

62.7 

85.9 

84.5 

Describiendo  las  hipótesis  adecuadas,  contesta  a  las  siguientes  preguntas: 

o)  Determina  los  intervalos  de  confianza  para  la  media  de  la  superficie  de  los 
pisos  en  el  mercado  inmobiliario  de  nuestra  ciudad  con  niveles  de  confianza  del 
90  %  y  del  99  %. 
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b )  A  partir  del  resultado  obtenido  en  el  apartado  anterior  y,  sin  realizar  ningún 
cálculo  adicional,  ¿cuál  es  nuestra  conclusión  ante  las  hipótesis: 

H0  :  la  superficie  media  de  los  pisos  ofertados  es  igual  a  75  m2 
H\  :  la  superficie  media  de  los  pisos  ofertados  no  es  igual  a  75  m 2 
con  niveles  de  significación  a  =0.1,  0.01  y  0.05? 

c)  Responde  a  todas  las  preguntas  del  apartado  anterior  (haciendo  los  cálculos 
que  sean  necesarios). 

d)  Un  directivo  inmobiliario  afirma  que  el  porcentaje  de  pisos  de  menos  de  60  m2 
no  supera  el  15%.  ¿Se  sostiene  su  afirmación  con  un  nivel  de  significación  de 
0.05? 

e)  Se  realiza  un  estudio  similar  en  otra  ciudad  y,  una  muestra  aleatoria  de  21 
pisos,  da  como  resultado  (llamemos  Y  a  la  superficie  de  los  pisos  en  esta  nueva 
ciudad) : 

Y  =  85  m2  ,  Sy  =  200  m4 

Con  un  nivel  de  significación  0.05,  ¿puede  descartarse  que  la  media  de  la  su¬ 
perficie  de  los  pisos  en  el  mercado  inmobiliario  de  nuestra  ciudad  sea  similar  a 
la  de  esta  otra? 


Solución: 

Nos  dan  una  muestra  de  la  superficie  en  m2,  X,  de  31  viviendas  (n=31).  Para  esta 
muestra  podemos  calcular  la  media  y  la  cuasidesviación  típica: 

x  =  70.871  y  S  =  14.86032 


a)  Determina  los  intervalos  de  confianza  para  la  media  de  la  superficie  de  los  pisos 
en  el  mercado  inmobiliario  de  nuestra  ciudad  con  niveles  de  confianza  del  90  % 
y  del  99%. 

Nos  piden  IC(/x),  para  1  —  a  =  0.9  y  para  1  —  a  =  0.99 

Como  la  varianza  población  al  es  desconocida,  suponiendo  que  la  superficie 
de  los  pisos  sigue  una  distribución  Normal,  se  verifica  que: 


C  -  T 

s/yfñ 


~  tn- 1 


Entonces:  ICi_a(/i) 


i  I"n—  l,c*/2  , — 

\  n 


IC0.9(aO  =  70.33871  ±  ¿30,0,05 14'8^32  =  70.33871  ±  1.6973  x  2.66899 

v  31 

IC0.9(/i)  =  70.33871  ±  4.53008  =  (65.80863,  74.86879) 

La  superficie  media  de  los  pisos  se  encuentra  entre  65.81  m2  y  74.87  m2,  con 
un  nivel  de  confianza  del  90%. 


Análogamente: 

ICo.99(/i)  =  70.33871  ±  ¿30,0.005  x  2.66899  =  70.33871  ±  2.75  x  2.66899 
IC0.99(/i)  =  70.33871  ±  7.33972  =  (62.99899,77.67843) 

La  superficie  media  de  los  pisos  se  encuentra  entre  63  m2  y  77.68  m2,  con  un 
nivel  de  confianza  del  99%. 
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b)  A  partir  del  resultado  obtenido  en  el  apartado  anterior  y,  sin  realizar  ningún 
cálculo  adicional,  ¿cuál  es  nuestra  conclusión  ante  las  hipótesis: 

H0:  ¡1  =  75 
Hx  :  /i  ¿  75 


con  niveles  de  significación  a  =0.1,  0.01  y  0.05? 


Para  responder  a  esta  pregunta  utilizaremos  los  intervalos  de  confianza  calcu¬ 
lados  en  el  apartado  anterior,  por  lo  tanto,  las  condiciones  de  validez  son  las 
mismas  que  en  dicho  apartado:  como  no  conocemos  la  varianza  poblacional, 
para  poder  hacer  inferencias  sobre  la  media  poblacional  necesitamos  que  la 
variable  superficie  siga  una  distribución  Normal. 


Para  a  =  0.1:  esto  significa  que  1  —  a  =  0.9 
75  ^  IC0.9(/i),  por  lo  tanto,  rechazamos  H0. 

Es  decir:  para  un  nivel  de  significación  del  10  %,  no  podemos  aceptar  que  la 
superficie  media  de  las  viviendas  en  venta  sea  de  75  m2. 


Para  a  =  0.01:  esto  significa  que  1  —  a  =  0.99 
75  G  ICo.9g(¿i),  por  lo  tanto,  aceptamos  H0. 

Es  decir:  para  un  nivel  de  significación  del  1  %,  aceptamos  que  la  superficie 
media  de  las  viviendas  en  venta  es  de  75  m2. 


Para  a  =  0.05:  esto  significa  que  1  —  a  =  0.95 
Sin  hacer  más  cálculos  no  podemos  decir  nada 

A  partir  de  los  resultados  anteriores  «da  la  sensación»  de  que  con  este  nivel 
de  significación  se  aceptaría  la  hipótesis  nula  (ya  que  75  está  muy  cerca  del 
extremo  del  intervalo  de  confianza  para  a  =  0.1)  y  para  a  =  0.05  el  intervalo 
es  mayor).  Pero  en  realidad  no  podemos  afirmar  que  vaya  a  estar  dentro. 

c)  Responde  a  todas  las  preguntas  del  apartado  anterior  (haciendo  los  cálculos 
que  sean  necesarios). 


Resolvemos  el  contraste  de  hipótesis  en  general  y  luego  respondemos  a  las 
cuestiones  en  función  del  nivel  de  significación. 


Queremos  resolver  el  contraste: 


H0  :  ¡jl  =  75 
Ri  :  p  ±  75 


para  distintos  niveles  de  sig¬ 


nificación. 

Como  la  varianza  poblacional  es  desconocida,  suponiendo  que  la  superficie 
de  los  pisos  sigue  una  distribución  Normal,  se  verifica  que: 


(- T 

s¡\fñ 


~  tn-l 


Entonces,  si  H0  es  cierta,  el  valor  del  estadístico 
Es  decir  que,  en  nuestro  caso 


x  —  75 

s/a/Ü 


es  un  valor  de  una  í„_i 


70.33871  -  75 

11.86032 

vAT 


-4.66129 


-1.74646 


2.66899 
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es  un  valor  de  una  ¿30 

Para  saber  si  se  acepta  o  no  la  hipótesis  nula,  debemos  determinar  si  el  es¬ 
tadístico  calculado  se  encuentra  o  no  en  la  región  de  aceptación  y  dicha  región 
es  el  intervalo: 

RA  (  tn_ lta/2i  ¿n—  l,a/2) 


Para  a  =  0.1: 

Buscamos  en  las  tablas:  ¿30,0/2  =  ¿30,0.05  =  1.6973, 

A  continuación  comprobamos  si  nuestro  estadístico  pertenece  a  la  región  de 
aceptación: 

-1.74646  £  (-1.6973, 1.6973) 

Por  lo  tanto,  rechazamos  la  hipótesis  nula. 

Es  decir  que,  para  un  nivel  de  significación  de  0.1  no  se  puede  aceptar  que  la 
superficie  media  de  las  viviendas  sea  de  75  m2. 

Para  a  =  0.01: 

Buscamos  en  las  tablas:  ¿30, 0/2  =  ¿30,0.005  =  2.75, 

Comprobamos  si  nuestro  estadístico  pertenece  a  la  región  de  aceptación: 

-1.74646  G  (-2.75,2.75) 

Por  lo  tanto,  aceptamos  la  hipótesis  nula. 

Es  decir  que,  para  un  nivel  de  significación  de  0.01  sí  se  puede  aceptar  que  la 
superficie  media  de  las  viviendas  sea  de  75  m2. 

Por  último,  para  a  =  0.05: 

Buscamos  en  las  tablas:  ¿30,0/2  =  ¿30,0.025  =  2.0423, 

Comprobamos  si  nuestro  estadístico  pertenece  a  la  región  de  aceptación: 

-1.74646  G  (-2.0423,2.0423) 

Por  lo  tanto,  aceptamos  la  hipótesis  nula. 
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Es  decir  que,  para  un  nivel  de  significación  de  0.05  sí  se  puede  aceptar  que  la 
superficie  inedia  de  las  viviendas  sea  de  75  m2. 

Este  apartado  también  se  puede  resolver  utilizando  el  p- valor. 

Una  vez  calculado  el  valor  del  estadístico:  t  =  —1.74646,  entonces: 
p- valor —P{\  T  |>  1.74646  siendo  T  ~  í30} 
p-valor=2  x  P{T  >  1.74646  siendo  T  ~  t30} 

Si  usamos  las  tablas,  teniendo  en  cuenta  que  T  ~  Í30,  las  mejores  aproximacio¬ 
nes  que  podemos  hacer  son  : 
p- valor =  2  x  P{T  >  1.74646}  >  2  x  0.025  =  0.05 
p- valor  =  2  x  P{T  >  1.74646}  <  2  x  0.05  =  0.1 

Si  usamos  el  ordenador  obtenemos  que  el  p-valor=0. 090964 

En  cualquier  caso,  el  razonamiento  es  el  mismo: 

■  Si  a  =  0.1,  el  p- valor  es  MENOR  que  a  y  rechazamos  H0. 

■  Si  a  =  0.05,  el  p- valor  es  MAYOR  que  a  y  aceptamos  H0. 

■  Si  a  =  0.01,  el  p-valor  es  MAYOR  que  a  y  aceptamos  H0. 

Las  respuestas  son  las  mismas  que  hemos  dado  antes. 

d )  Un  directivo  inmobiliario  afirma  que  el  porcentaje  de  pisos  de  menos  de  60  m2 
no  supera  el  15%.  ¿Se  sostiene  su  afirmación  con  un  nivel  de  significación  de 
0.05? 

Lo  que  se  plantea  ahora  es  un  contraste  para  una  proporción. 

Además  este  contraste  es  unilateral  (la  zona  de  rechazo  es  solo  una  de  las  colas). 
Para  poder  hacer  inferencia  sobre  proporciones  y  que  el  estadístico  utilizado 
sea  válido,  necesitamos  que  el  tamaño  de  la  muestra  sea  suficientemente  grande 
n  >  30  y  además  que  np  >  5  y  n(  1  —  p)  >  5. 

En  este  caso,  como  p=0.15  y  n=31,  no  se  cumplen  las  condiciones  de  validez 
porque,  aunque  n  es  suficientemente  grande,  n  >  30,  no  se  verifica  otra  de  las 
condiciones  np  =  0.15  x  31  =  4.65  <  5. 

Resolvemos  el  problema  suponiendo  que  se  cumplen  las  condiciones  de  validez. 
El  contraste  es: 


Si  se  cumplen  las  condiciones  de  validez  sabemos  que 


Gráficamente  la  situación  es  (la  zona  de  rechazo  está  a  la  derecha): 
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-5  -3  -1  1  Za  3  5 


Si  H0  es  cierta,  sabemos  que  el  valor  2 


p  — 0.15 


y 


0.15(1-0.15) 


es  un  valor  de  una 


N(0, 1),  y  debemos  determinar  si  dicho  valor  se  encuentra  en  la  región  de 
aceptación  o  en  la  de  rechazo  para  nuestro  problema. 

En  este  problema,  como  a  =  0.05,  la  zona  de  rechazo  la  determina  el  valor 


za  =  2o.o5  =  1-645 


Calculamos  el  estadístico  para  la  muestra: 


2  = 


_8_ 

31 


0.15 


í 


0.15(1-0.15) 
31 


1.76223 


Como  1.76223  >  1.645,  esto  significa  que  el  estadístico  se  encuentra  en  la  zona 
de  rechazo.  Por  lo  tanto:  rechazamos  la  hipótesis  nula. 

Para  un  nivel  de  significación  de  0.05  NO  se  sostiene  la  afirmación  del  directivo. 
Es  decir,  que  debemos  aceptar  que  la  proporción  de  pisos  con  una  superficie 
menor  que  60  m2  es  mayor  que  el  15  %. 

e)  Se  realiza  un  estudio  similar  en  otra  ciudad  y,  una  muestra  aleatoria  de  21 
pisos,  da  como  resultado  (llamemos  Y  a  la  superficie  de  los  pisos  en  esta  nueva 
ciudad): 

Y  —  85  m2  ,  Sy  —  200  m4 

Con  un  nivel  de  significación  0.05,  ¿puede  descartarse  que  la  media  de  la  su¬ 
perficie  de  los  pisos  en  el  mercado  inmobiliario  de  nuestra  ciudad  sea  similar  a 
la  de  esta  otra? 

Vamos  a  hacer  un  contraste  de  igualdad  de  medias  para  dos  muestras  indepen¬ 
dientes. 

Como  las  varianzas  poblacionales  son  desconocidas,  para  que  los  resultados  del 
contraste  sean  válidos  necesitamos  que  la  superficie  de  las  viviendas,  en 
ambas  ciudades,  siga  una  distribución  Normal  y  que  las  varianzas  de 
dichas  superficies,  aunque  sean  desconocidas,  sean  iguales. 
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Si  se  cumplen  las  condiciones  anteriores,  sabemos  que: 


Ci  ~  (2  ~  (/¿1  —  P2) 

Sp\¡-  +  ± 

r  y  71  771 


r''y  tn+m — 2  donde  5), 


1)^1  +  ~  1)^2 

n  +  m  —  2 


El  contraste  es: 
Ho  :  fJ-x  =  Mr 
Hi  :  nx  #  Vy 
a  =  0.05 


Los  límites  de  la  región  de  aceptación  los  establece  el  valor: 


¿n+m-2,a/2  —  ¿31+21-2, 0.025  —  ¿50,0.025  —  2.00  86 


Región  de  aceptación:  RA  =  (—2.0086,2.0086) 

Calculamos  el  estadístico  para  las  muestras  y  determinamos  si  se  encuentra  o 
no  en  la  región  de  aceptación: 


t  = 


í 


70.33871  -  85 


30  x  220.829+20  x  200  / J_  ,  J_ 
50  y  31  ~l~  21 


-14.66129 

4.11677 


-3.56136 


Como  t  =  —3.56136  <  —2.0086,  está  fuera  de  la  región  de  aceptación,  por  lo 
tanto  rechazamos  que  las  medias  son  iguales  para  un  nivel  de  significación  del 
5%. 

Respondemos  a  la  pregunta: 

SÍ,  para  un  nivel  de  significación  del  5  %,  podemos  descartar  que  la  superficie 
media  de  los  pisos  en  venta  en  nuestra  ciudad  es  similar  a  los  de  esta  otra. 


2.  El  número  de  aciertos  de  10  individuos  en  un  determinado  test  psicotécnico,  antes 
y  después  de  echarse  la  siesta,  fueron: 


Antes  (X) 

232 

249 

246 

243 

213 

215 

246 

283 

247 

244 

Después  (Y) 

224 

253 

232 

252 

219 

206 

233 

268 

237 

227 
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Describiendo  las  hipótesis  adecuadas,  contrasta  con  un  nivel  de  significación 
a =0.05  la  hipótesis  nula  de  que  tras  una  siestecita  uno  se  encuentra  «más  despierto». 


Solución: 


Ese  «más  despierto»  se  traduce  en  que  el  número  de  aciertos  después  de  la  siesta  es 
mayor  que  antes.  Entonces,  lo  que  debemos  contrastar  son  las  medias  de  2  muestras 
pareadas  (relacionadas). 

Construimos  una  variable  con  las  diferencias  para  cada  caso  (D  =  Y—X),  y  entonces 
contrastar  la  igualdad  de  medias  en  este  problema,  es  equivalente  a  contrastar  si  la 
media  de  la  variable  diferencia  es  igual  a  cero: 


(en  nuestro  caso  el  contraste  será  unilateral) 


Ho  '■  Hy  >  Abe 

Hi  :  Hy  <  fJ-x  es  equivalente  a 
o  =  0.05 


Hq  :  Hd  —  Hy-x  >  0 

:  Hd  <  0 

o  =  0.05 


Antes  (X) 

232 

249 

246 

243 

213 

215 

246 

283 

247 

244 

Después  (Y) 

224 

253 

232 

252 

219 

206 

233 

268 

237 

227 

Diferencia  (D) 

-8 

4 

-14 

9 

6 

-9 

-13 

-15 

-10 

-17 

Para  la  variable  D  tenemos:  D  =  —6.7  y  sD  =  9.4757 

Entonces,  como  no  conocemos  la  varianza  poblacional  de  la  diferencia,  si  la  variable 
diferencia  sigue  una  distribución  Normal,  sabemos  que: 


Sfy/ñ 


~  tn- 1 


Gráficamente,  la  situación  es: 


/ 

\ 

/ 

\ 

/ 

\ 

¡ 

f 

< 

/ 

\ 

/ 

1- 

a 

\ 

á 

\ 

■— - , 

’tvl.a  0 


El  límite  de  la  región  de  aceptación  es:  — tn_ i,q  =  —  £9,0.05  =  —1.8331 


Calculamos  el  valor  del  estadístico  para  ver  si  está  en  la  región  de  aceptación: 


(-6.7)  -  0 
9.4757/^10 


-0.2236 


El  estadístico  se  encuentra  dentro  de  la  región  de  aceptación,  lo  que  significa  que 
aceptamos  la  hipótesis  nula  (//£>>  0). 
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Por  lo  tanto  aceptamos  que  el  número  medio  de  aciertos  después  de  la  siesta  es 
mayor  que  antes  (no  hay  evidencia  en  contra),  con  un  nivel  de  significación  del  5  %. 

También  podíamos  haberlo  resuelto  calculando  el  p-valor: 

p  =  P{T  <  —0.2236  ,  siendo  T  ~  í9} 
aunque  las  tablas  no  nos  dan  un  valor  exacto,  para  una  í9  sabemos  que 
p  =  P{T  <  -0.2236}  =  P{T  >  0.2236}  >  0.35  >  a  =  0.05 

Por  lo  tanto,  como  el  p-valor>  a ,  aceptamos  la  hipótesis  nula,  es  decir,  aceptamos 
que  el  número  medio  de  aciertos  después  de  la  siesta  es  mayor  que  antes  (no  hay 
evidencia  en  contra),  con  un  nivel  de  significación  del  5%. 
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Resumen  de  Intervalos  y  Contrastes 


Intervalo  de  confianza  y  contraste  de  hipótesis  para  la  media: 


Condiciones 

Distribución 

Intervalo  de  confianza 

Contraste 

Estadístico 

Población  Normal  o 
población  cualquiera 
con  muestra  grande 
( n  >  30)  y  varianza 
conocida 

(x  -  za/ 2^,x  +  za¡ 2^) 

Hq  ■  P  =  Po 
Hi-pApo 

iH  b 

II 

Población  Normal  y 

varianza  descono¬ 
cida 

C— p  + 

/  / —  —  1 

S/y/n  ,l  1 

-  tn_ l,a/2^=, 

x  +  tn-l,a/2^lj 

Hq  ■  P  =  Po 
Hi-pApo 

i  < 
i£3  en 

ll 

■HO 

Intervalo  de  confianza  y  contraste  de  hipótesis  para  la  proporción: 


Condiciones 

Muestra  gran¬ 
de  ( np  >  5  y 
n(l  —  p)>  5) 


Distribución 


Intervalo  de  confianza 


p-p 

p(i-p) 


N(  0,1) 


„  „  .  .  ,  p(i-p) 

P~  Za/2C  ; 


P  +  za/2 


P(l-P) 


Contraste 


Estadístico 


Rq  ■  p  =  Po 
Hi  ■  P  A  Po 


z  _  p-p o 


poó-pq) 


Intervalo  de  confianza  y  contraste  de  hipótesis  para  la  diferencia  de  medias: 


Condiciones 

Distribución 

Intervalo  de  confianza 

Contraste 

Estadístico 

Poblaciones 
Normales  o 

poblaciones 
cualesquiera 
con  muestras 
grandes  y 

varianzas 
conocidas 

Ci-C2-(mi-M2) 

(x-y-za/  + 

x-y  +  za/ 2\/í +  á) 

Hq  :  y.1  —  y.2  =  do 

H i  :  p.2  ^  do 

_ x-y-do 

v/-+- 

y  n  m 

N(  0,1) 

M+’i 

y  n  m 

Poblaciones 
Normales  y 

varianzas 
desconocidas 
pero  iguales 

Cl-Í2-(P1-M2 )_,*  . 

(x-y-  tn+m_2,a/2Sp\J  S  +  m’ 

X  —  y  +  tn+m-2,a/2SpfJ  £  +  ¿) 

Hq  '■  Pi  —  P2  =  «¿o 

H i  \  pi  —  P2  ^  do 

f  _  x-y-do 

donde 

o  1  (n-l)si  +  (m-l)s| 

“  Y  n+m-2 

SP\]  n  +  m 

Intervalo  de  confianza  y  contraste  de  hipótesis  para  la  diferencia  de  proporciones: 


Condiciones 

Distribución 

Intervalo  de  confianza 

Contraste 

Estadístico 

Muestras 
grandes 
q  =  i  -p 

Pl— P2  — (Pl— P2) 

í  ■n-,  rio  r  ,  4  /Pi9i  P2<?2 

1  pi  P2  ^a/2  y  ~ír  + 

\ 

fío  :  Pi  -P2  =  0 
fíi  :  P1-P2  0 

- P1-P2 

^/pT91  i  P2<?2~ 

ÍV(0,"l) 

VP^+á) 

donde 

_  npi+mp2 
**  n+m 

_l_  r  ,  *  /Pi9i  1  P2Q2  \ 

Pl  -  P2  +  Za/2\J  —  +  —  1 

Tema  7 


Muestreo 


En  el  tema  anterior  hablábamos  de  algunos  de  los  aspectos  más  elementales  de  la 
Inferencia  Estadística  y  dábamos  por  hecho  que  teníamos  una  muestra  de  tamaño  n,  con 
la  que  podíamos  hacer  inferencias,  pero  las  cosas  no  son  tan  sencillas. 

En  primer  lugar,  una  muestra  debe  ser  un  subconjunto  de  la  población,  pero  no 
cualquier  subconjunto,  sino  que  debe  ser  representativo  de  la  misma. 

La  forma  en  la  que  se  elige  este  subconjunto  influirá  en  los  resultados  que  obtengamos. 
Hay  toda  una  teoría  de  muestras  desarrollada  para  determinar  en  cada  caso  cómo  debe 
ser  la  muestra,  en  función  del  estudio  que  queramos  realizar. 

Este  no  es  el  momento  ni  el  lugar  para  desarrollar  esta  teoría,  pero  sí  que  nos  con¬ 
viene  conocer  algunos  de  los  tipos  o  técnicas  más  habituales  de  muestreo,  ya  que  los 
necesitaremos  para  realizar  cualquier  estudio  estadístico. 

En  segundo  lugar,  ¿cuál  debe  ser  el  tamaño  de  la  muestra?,  ¿es  apropiado  tomar  20 
elementos?,  ¿existen  grandes  diferencias  entre  tomar  50  o  100  elementos?,  ¿en  qué  influye 
el  tamaño  de  la  muestra? 

Vamos  a  intentar  dar  una  respuesta  rápida  y  sencilla  a  estas  dos  cuestiones,  aunque, 
como  ya  se  ha  dicho,  el  tema  no  es  ni  rápido  ni  sencillo. 


7.1.  Técnicas  de  muestreo 


Lina  muestra  debe  ser  un  subconjunto  de  la  población,  representativo  de  la  misma. 

Vamos  a  comentar  algunas  de  las  técnicas  más  habituales  de  muestreo. 

Muestreo  con  reemplazamiento  es  el  que  se  realiza  cuando  un  elemento  tomado  de  la 
población  vuelve  de  nuevo  a  ella  para  poder  volver  a  ser  elegido.  En  esta  situación, 
cada  miembro  de  la  población  puede  seleccionarse  más  de  una  vez. 

Muestreo  sin  reemplazamiento  es  el  que  se  realiza  sin  devolver  a  la  población  los 
elementos  que  se  van  eligiendo  para  construir  la  muestra.  En  esta  situación,  cada 
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miembro  de  la  población  solo  puede  seleccionarse  una  vez. 

Muestreo  no  aleatorio  es  el  que  se  realiza  de  modo  que  no  todos  los  elementos  de  la 
población  tienen  la  misma  probabilidad  de  ser  elegidos. 

Con  este  tipo  de  muestreo  la  representatividad  de  la  muestra  es  escasa  y  las  infe¬ 
rencias  poco  válidas. 

Dentro  de  este  tipo  de  muestreo  se  encuentran  los  muéstreos:  opinático  (elección 
subjetiva  por  considerar  el  elemento  representativo);  por  cuotas  (se  obliga  a  elegir 
un  cierto  número  de  elementos  con  una  característica  determinada);  semialeatoño 
(en  alguna  fase  del  muestreo  aleatorio,  se  permite  al  entrevistador  la  elección  del 
elemento  que  formará  parte  de  la  muestra)  y  por  rutas  (se  suele  utilizar  en  encuestas 
de  opinión  y  consiste  en  indicar  pautas  para  la  elección  del  itinerario  a  seguir  y  que 
llevará  al  individuo  encuestado). 

Muestreo  aleatorio  es  el  que  se  realiza  teniendo  en  cuenta  que  todos  los  individuos  de 
la  población  tienen  la  misma  probabilidad  de  ser  elegidos  en  la  muestra.  Con  este 
tipo  de  muestreo,  las  muestras  son  representativas,  es  posible  conocer  los  errores 
cometidos  y  se  pueden  hacer  inferencias. 

El  muestreo  aleatorio  es  el  que  más  nos  interesa  y  será  el  que  utilicemos  siempre  que 
podamos.  Existen  tres  tipos  de  muestreo  aleatorio: 

Muestreo  aleatorio  simple  Para  elegir  una  muestra  se  parte  de  una  lista  con  todos  los 
elementos  de  la  población  y  del  mismo  se  seleccionan  los  n  elementos  que  forman  la 
muestra. 

La  elección  de  estos  n  elementos  se  pude  hacer  de  varias  formas: 

■  Asignando  un  número  a  cada  elemento  de  la  población  y  luego  eligiendo  al  azar  n 
números  (ya  sea  metiéndolos  en  una  urna  y  sacando  n  papeles,  o  generando  una 
variable  discreta  equiprobable).  Esto  da  lugar  a  un  muestreo  sin  reemplazamiento. 

■  Mediante  una  tabla  de  números  aleatorios.  Tendremos  que  decidir  si  queremos  un 
muestreo  con  reemplazamiento  (un  elemento  puede  estar  más  de  una  vez  en  la 
muestra),  o  no. 

Este  muestreo  aleatorio  es  el  más  sencillo  de  todos  y  sirve  de  base  para  los  otros  dos. 

Muestreo  aleatorio  sistemático  es  una  variedad  del  muestreo  aleatorio  simple.  Con¬ 
siste  en,  conocido  el  tamaño  de  la  población,  N,  y  de  la  muestra,  n,  dividir  N  entre 
n,  y  el  resultado  del  cociente,  k,  nos  indica  que  debemos  seleccionar  los  elementos 
de  la  muestra  de  k  en  k. 

Este  tipo  de  muestreo  tiene  la  ventaja  de  que  solo  hay  que  elegir  aleatoriamente  el 
primer  elemento  de  la  muestra,  pero  tiene  el  problema  de  que  si  hay  periodicidad  en  los 
datos,  la  muestra  resultante  puede  que  no  sea  representativa. 
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Muestreo  aleatorio  estratificado  Se  realiza  dividiendo  la  población  en  subgrupos  o 
estratos  homogéneos  y  tomando,  en  cada  uno  de  ellos,  una  muestra  aleatoria  simple. 

El  procedimiento  utilizado  para  determinar  el  número  de  elementos  que  se  toman  en 
cada  estrato  se  llama  afijación.  Los  más  habituales  son: 

■  Afijación  simple:  se  toma  el  mismo  número  de  elementos  en  cada  estrato. 

■  Afijación  proporcional:  el  número  de  elementos  es  proporcional  al  tamaño  del  estrato 
dentro  de  la  población. 

En  general,  si  queremos  tomar  una  muestra  de  tamaño  n  en  una  población  de  tamaño 
N,  para  el  i-ésimo  estrato,  de  tamaño  iV¿,  tendremos  que  tomar  una  muestra  de 
Ni 

tamaño:  n,  —  n—  . 

N 

Existen  otros  tipos  de  muestreo  aleatorio  aunque  no  vamos  a  verlos. 


7.2.  Tamaño  de  la  muestra 

7.2.1.  Para  la  estimación  de  una  media 

Una  cuestión  importante  a  la  hora  de  seleccionar  una  muestra  es  determinar  el  tamaño 
de  la  misma. 

En  muchas  ocasiones  esta  tarea  no  es  nada  sencilla,  e  incluso  lo  único  que  podemos 
hacer  es  una  estimación  del  tamaño  mínimo  que  debe  tener. 

Empecemos  por  el  principio,  ¿por  qué  no  nos  vale  con  cualquier  tamaño  de  muestra  y 
en  qué  influye  dicho  tamaño? 

Para  empezar,  debemos  tener  claro  que  se  elige  una  muestra  cuando  tenemos  una 
población  tan  grande  que  no  podemos  abarcarla,  o  bien  lo  suficientemente  grande  para 
que  sea  muy  costoso  el  acceder  a  todos  los  elementos  de  la  misma.  En  estos  casos  queremos 
elegir  un  subconjunto  representativo  (muestra  aleatoria)  y  a  la  vez  que  no  nos  suponga 
un  gasto  excesivo. 

Por  otra  parte,  la  muestra  debe  ser  lo  suficientemente  grande  como  para  que  los  re¬ 
sultados  obtenidos  a  partir  de  ella  sean  fiables.  Esta  fiabilidad  viene  medida  por  el  error 
máximo  que  estamos  dispuestos  a  admitir,  EM,  y  su  probabilidad  asociada  (a). 

Por  lo  tanto,  lo  que  buscamos  al  elegir  el  tamaño  muestra!  es  evitar  un  gasto  exce¬ 
sivo  y  conseguir  resultados  fiables. 

El  problema  de  determinar  el  tamaño  de  la  muestra,  como  se  ha  dicho  no  es  nada 
sencillo,  pero,  en  algunos  casos,  podemos  dar  valores  que  nos  garanticen  una  determinada 
fiabilidad  de  los  resultados. 


La  idea  es  la  siguiente: 


130 


TEMA  7.  MUESTREO 


Si  la  población  es  Normal,  y  la  varianza  poblacional  es  conocida,  la  distribución 
de  la  media  muestra!  es: 


a 


' n 


En  este  caso,  el  intervalo  de  confianza  para  la  media  poblacional,  con  un  nivel  de 
confianza  1  —  a,  o  lo  qne  es  lo  mismo  para  un  nivel  de  significación  a,  es: 


IC(n)  =  (  x  -  za/ 2A=i  x  +  za/2A=  ) 

V  Vn  Vn  J 


Es  decir  que:  IC(fi)  —  x  ±  za/2 —=  —  x  ±  EM 

Vn 

EM  es  el  error  muestral. 

Luego,  el  error  muestral,  que  es  el  error  máximo  que  se  puede  cometer,  para  un  nivel 
de  confianza  1  —  a,  es: 


EM  =  z, 


o 


a/2 


n 


Entonces: 

Para  calcular  el  intervalo  de  confianza  para  la  media,  o  para  realizar  un  contraste 
de  hipótesis  para  la  media,  cuando: 

■  la  población  sigue  una  distribución  Normal  para  la  variable  considerada, 

■  la  varianza  poblacional  es  conocida, 

■  estamos  dispuestos  a  asumir  una  probabilidad  de  error  a, 

■  y  determinamos  que  el  error  máximo  que  estamos  dispuestos  a  acep¬ 
tar  es  EM, 

entonces,  el  tamaño  de  la  muestra  debe  ser: 

_ Za/2a 2 

U  ~  EM 2 


En  el  caso  de  que  la  varianza  poblacional  sea  desconocida  (que  es  lo  más  habitual), 
sabemos  que  el  intervalo  de  confianza  para  la  media,  con  un  nivel  de  confianza  1  —  a,  es: 


IC (/i)  í  X  ¿n—  l,o/2  / — ■  X  tn—l  a/2  ¡ —  ) 

V  v ' n  Vn  J 


Esto  significa  que  el  error  muestral  es: 

EM  =  tn-\a/2—7= 

Vn 

pero  en  esta  expresión  tanto  s  como  el  valor  de  la  t,  dependen  de  n,  por  lo  que  es  imposible 
calcularlos. 


7.2.  TAMAÑO  DE  LA  MUESTRA 


131 


Lo  que  se  hace  en  estas  ocasiones  es  calcular  una  estimación  del  tamaño  de  la 
muestra,  utilizando  información  previa  fiable  sobre  el  valor  de  la  varianza  poblacional. 

Utilizaremos  la  misma  expresión,  pero  ahora  no  podemos  asegurar  el  resultado, 
aunque  será  aproximado. 

Para  calcular  el  intervalo  de  confianza  para  la  media,  o  para  realizar  un  contraste 
de  hipótesis  para  la  media  cuando: 

■  la  población  sigue  una  distribución  Normal  para  la  variable  considerada, 

■  aunque  la  varianza  poblacional  es  desconocida  tenemos  información 
previa  fiable  sobre  la  misma  (habitualmente  se  utiliza  la  cuasivarianza 
muestral  s2), 

■  estamos  dispuestos  a  asumir  una  probabilidad  de  error  a, 

■  y  determinamos  que  el  error  máximo  que  estamos  dispuestos  a  acep¬ 
tar  es  EM, 

entonces,  el  tamaño  de  la  muestra  debe  ser: 

_  Zl/2s2 

_ U~  EM 2 _ 

En  cualquier  otro  caso,  el  análisis  es  mucho  más  complicado  y  no  lo  vamos  a  ver. 

7.2.2.  Para  la  estimación  de  una  proporción 

En  el  caso  de  la  proporción  poblacional,  el  razonamiento  es  análogo: 

Sabemos  que  cuando  n  es  suficientemente  grande  (n  >  30),  el  intervalo  de  confianza 
para  la  proporción  poblacional,  con  un  nivel  de  significación  cc,  es: 

IC(p )  =  fi±  z 

Es  decir  que  el  error  muestral  es: 

EM  =  za 

Lo  que  significa  que  el  tamaño  mínimo  de  la  muestra  debe  ser: 

2  P0--P) 
n  ~  ^2W 


Es  decir: 
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Para  calcular  el  intervalo  de  confianza  para  la  proporción  poblacional,  o  para 
realizar  un  contraste  de  hipótesis  para  la  proporción  poblacional,  si  estamos 
dispuestos  a  asumir  una  probabilidad  de  error  a,  y  determinamos  que  el 
error  máximo  que  estamos  dispuestos  a  aceptar  es  EM,  entonces,  el  tamaño 
de  la  muestra  debe  ser: 

2  P0--P) 

R  "Q/2  EM2 

Este  resultado  es  cierto  siempre  que  obtengamos  n  >  30. 

En  el  resultado  anterior,  se  utiliza  una  proporción  muestra!  previa  (o  estimada)  como 
estimación  de  la  proporción  poblacional  para  poder  realizar  los  cálculos. 


Si  no  queremos  o  no  podemos  utilizar  la  aproximación  de  la  proporción,  nos  podemos 
poner  en  la  peor  situación  posible  y  determinar  el  intervalo  de  confianza  más  grande 
posible ,  para  un  nivel  de  confianza  1  —  a  que  es  el  que  se  obtiene  cuando  p=l/2. 

Para  esta  situación  sabemos  que: 

Cuando  n  es  suficientemente  grande  (n  >  30),  el  intervalo  de  confianza  para  la  pro¬ 
porción  poblacional,  con  un  nivel  de  significación  a,  es: 

IC(p)  =p±za/ 2 


Es  decir  que  el  error  muestra!  es:  EM  =  za/2 
Lo  que  significa  que  el  tamaño  mínimo  de  la  muestra  debe  ser: 

11  =  Za/24EM 2 


Es  decir  que: 

Si  no  queremos  o  no  podemos  utilizar  la  aproximación  de  la  proporción,  para 
calcular  el  intervalo  de  confianza  para  la  proporción  poblacional,  o  para  realizar 
un  contraste  de  hipótesis  para  la  proporción  poblacional,  si  estamos  dispuestos  a 
asumir  una  probabilidad  de  error  a,  y  determinamos  que  el  error  máximo 
que  estamos  dispuestos  a  aceptar  es  EM,  entonces,  el  tamaño  de  la  muestra  debe 
ser: 

U  =  Za/2AEM 2 

Este  resultado  es  cierto  siempre  que  obtengamos  n  >  30. 
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7.2.3.  Para  la  estimación  de  una  diferencia  de  medias 


En  el  caso  de  la  diferencia  de  medias,  solo  vamos  a  considerar  el  caso  más  elemental: 


Sabemos  que  si  tenemos  muestras  tomadas  en  Poblaciones  Normales  o  poblaciones 
cualesquiera  pero  con  muestras  grandes  y  varianzas  poblacionales  conocidas,  la  distribu¬ 
ción  en  el  muestreo  de  la  diferencia  de  medias  cumple  que: 


Ci  —  C2  —  (ñi  ~  P2) 


~  _/V( 0, 1) 


Entonces,  el  intervalo  de  confianza  para  la  diferencia  de  medias  será: 


IC{n  1  -  /i2)  = 


la¡  o\ 

x2  =t  za/2\ - 1 - _ 

u  n  m 


Si  tomamos  muestras  del  mismo  tamaño  en  las  dos  poblaciones:  n=m,  entonces: 


EM 


?a/2 


crf  +  a. 


n 


2  y  en  este  caso:  n  =  z2y/2 


(  oí  + 

V  EM2  ) 


Es  decir 

Si  trabajamos  en  Poblaciones  Normales  con  varianzas  conocidas  y  si  tomamos 
muestras  del  mismo  tamaño  en  ambas  poblaciones,  entonces,  el  tamaño  mues- 
tral  necesario  en  cada  población,  para  que  el  error  muestral  de  la  diferencia  de 
medias,  con  un  nivel  de  confianza  prefijado  1  —  a,  sea  igual  a  una  cantidad  pre¬ 
fijada,  EM,  es: 

U  ~  Z°'2  ) 


7.2.4.  Para  la  estimación  de  una  diferencia  de  proporciones 

Análogamente,  para  la  diferencia  de  proporciones 

Si  tomamos  muestras  del  mismo  tamaño  en  ambas  poblaciones,  entonces,  el 
tamaño  muestral  necesario  para  que  el  error  muestral  de  la  diferencia  de  pro¬ 
porciones,  con  un  nivel  de  confianza  prefijado  1  —  a,  sea  igual  a  una  cantidad 
prefijada,  EM,  es: 

2  f  PÁ1  ~Pi)  +P2(1  ~P2)\ 

n  ~  Za<2  V  EM2  ) 

Igual  que  en  el  caso  de  una  proporción,  para  poder  aplicar  esta  fórmula,  tendremos 
que  utilizar  alguna  estimación  «fiable»  de  las  proporciones  poblacionales  ya  que  estas  son 
desconocidas. 


O  bien,  en  el  caso  más  extremo  {;p\  =  P2  =  1/2): 
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Si  tomamos  muestras  del  mismo  tamaño  en  ambas  poblaciones,  entonces,  el 
tamaño  muestral  necesario  para  qne  el  error  muestra!  de  la  diferencia  de  pro¬ 
porciones,  con  un  nivel  de  confianza  prefijado  1  —  a,  sea  igual  a  una  cantidad 
prefijada,  EM,  es: 

U  ~  Za/ 2  (2 EM2) 


Tema  8 


Estadística  Descriptiva 
bidimensional 


Hasta  ahora,  prácticamente  todo  lo  que  hemos  visto  se  refería  al  estudio  de  una  única 
variable  estadística  o  aleatoria.  Vamos  a  ver  aquí  cómo  abordar  el  estudio  de  una  variable 
bidimensional  como  una  extensión  de  lo  ya  visto  en  el  caso  unidimensional. 

La  mayoría  de  las  veces,  al  estudiar  una  población,  se  estudian  dos  o  más  características 
simultáneamente.  Cada  observación  dará  lugar  por  tanto  a  dos  o  más  números  (suponien¬ 
do  que  las  características  son  cuantitativas).  La  variable  estadística  correspondiente  se 

denomina:  variable  bidimensional  o  multidimensional. 

Nosotros  nos  vamos  a  limitar  al  estudio  de  dos  características,  por  lo  que  nos  centra¬ 
remos  en  las  variables  bidimensionales. 

El  análisis  de  las  distribuciones  de  dos  o  más  dimensiones  tiene  por  objetivo  general  el 
estudio  de  la  existencia  o  no  de  algún  tipo  de  asociación,  dependencia  o  covariación  entre 
las  distintas  variables. 


8.1.  Tablas  de  frecuencias 


Igual  que  hacíamos  en  el  caso  unidimensional,  una  vez  que  hemos  recogido  nuestra 
masa  de  datos,  el  primer  paso  será  intentar  resumir  esta  información,  para  lo  cual  cons¬ 
truiremos  una  tabla  de  frecuencias. 

Si  tenemos  una  variable  X ,  con  valores:  X\,X2,  Xk,  y  otra  variable  Y  con  valores 
yi,  1/2, ..,  y m-,  para  cada  elemento  de  la  población  tendremos  una  observación  bidimensional 
(xhVj)- 

Llamaremos: 


Frecuencia  absoluta  conjunta  bidimensional  al  número  de  veces  que  se  presenta 
conjuntamente  el  par  de  valores  ( x^yj ),  y  se  representa  por  nt] . 
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Frecuencia  relativa  conjunta  tridimensional  a  la  proporción  de  veces  que  se  presenta 
el  par  (xí,  yj)  y  se  calcula  como  el  cociente  entre  la  frecuencia  absoluta  bidimensional 
y  el  número  total  de  datos: 

Distribución  bidimensional  al  conjunto  formado  por  los  pares  de  valores  de  los  carac¬ 
teres  ( Xi,yj ),  asociado  a  sus  frecuencias  absolutas:  (. x^y^nij ),  o  a  las  relativas. 


Podemos  construir  una  tabla  de  frecuencias  con  las  variables  X  e  Y  y  su  frecuencia 
conjunta,  es  decir,  para  cada  par  de  valores,  su  frecuencia:  (xi,yj,riij). 

Otra  forma  de  disponer  los  datos  es  la  conocida  como  tabla  de  doble  entrada  (si  es 
de  caracteres  cualitativos  o  atributos  se  denomina  tabla  de  contingencia). 

Igual  que  en  el  caso  de  variables  unidimensionales,  podemos  distinguir  entre  distribu¬ 
ciones  agrupadas  en  intervalos  o  no  agrupadas. 

Tabla  de  doble  entrada  genérica: 


NO  AGRUPADA: 


Y 

X 

Vi 

V2 

V3 

Um 

X\ 

nn 

n\2 

ni3 

^lm 

X2 

n2 1 

ri22 

n2  3 

1^2  m 

Xk 

Tíkl 

Tlk  2 

nk3 

Tí  km 

AGRUPADA: 


Y 

X 

(i'oA\ 

(M 

(J“m—  1 J  l'inl 

(lo,  h. 

nn 

ni2 

ni3 

n  1  m 

(h,  h. 

ri2\ 

ri22 

n  23 

n2m 

(Jk—l  ?  ^k 

Tíkl 

nk2 

nk3 

nkm 

Ejemplo:  Sea  una  población  de  96  familias,  para  la  que  se  han  medido  las  siguientes 
variables: 

X—  número  de  personas  activas  en  la  familia. 


Y—  tamaño  de  la  familia  (número  de  miembros). 


Y 

X 

1 

2 

3 

4 

5 

6 

7 

8 

1 

7 

10 

11 

16 

8 

1 

1 

0 

(54) 

2 

0 

2 

5 

6 

6 

2 

0 

0 

(21) 

3 

0 

0 

1 

6 

4 

3 

1 

1 

(16) 

4 

0 

0 

0 

0 

2 

1 

1 

1 

(5) 

(7) 

(12) 

(17) 

(28) 

(20) 

(7) 

(3) 

(2) 

96 

Extraemos  información  de  la  tabla: 
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•  N  =  riij  :  la  suma  de  todas  las  frecuencias,  coincide  con  el  número  total  de 
observaciones. 


■  U-43  =  0  ;  El  número  de  familias  de  3  miembros  con  4  personas  activas  es  0. 

■  ^25  =  6  ;  hay  6  familias  de  5  miembros  en  las  que  2  están  en  activo. 


■  f2 5  =  —  =  0.0625  ;  de  las  96  familias,  hay  6  familias  de  5  miembros  con  2  en  activo. 
96 

O  bien,  0.0625  es  la  proporción  de  familias  de  5  miembros  con  2  en  activo,  en  el 
total  de  las  96  familias.  Multiplicando  por  100  se  obtiene  el  porcentaje  (6.25%). 


8.2.  Gráficos 


Las  distribuciones  bidimensionales  se  pueden  representar  gráficamente  en  el  espacio 
de  tres  dimensiones. 

En  este  caso  en  el  eje  vertical  se  representan  las  frecuencias  y  en  el  plano  horizontal 
los  valores  de  las  variables  X  e  Y. 

Por  ejemplo,  la  representación  gráfica  de  una  distribución  genérica  puede  ser: 


Gráfico  de  barras  de  la  variable  bidimensional,  o  Histograma  de  datos  categóri¬ 
cos  en  variables  no  agrupadas  (representan  lo  mismo): 


Nube  de  puntos  o  Diagrama  de  Dispersión: 
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1 

X 

2 

Y 

3 

Nij 

1 

i 

i 
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16 
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3 
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1 
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3 
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1 

19 

4 

5 

2 

20 

4 

6 

1 

21 

4 

7 

1 

22 

4 

8 

1 

Diagrama  de  dispersión  de  Y  contra  X 


El  Diagrama  de  dispersión  es  más  práctico  cuando  todos  los  pares  de  valores  tienen 
frecuencia  1: 


Diagrama  de  dispersión  de  Y  contra  X 


X 


En  el  caso  de  variables  agrupadas  en  intervalos,  podemos  dibujar  el  Histograma  en  el 
espacio,  aunque  puede  ser  complicado. 


8.3.  DISTRIBUCIONES  MARGINALES  Y  CONDICIONADAS 
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8.3.  Distribuciones  marginales  y  condicionadas 

8.3.1.  Distribuciones  marginales 


En  una  distribución  bidimensional,  (X,  Y),  se  pueden  considerar  las  distribuciones  de 
cada  una  de  las  variables  componentes.  A  estas  distribuciones  se  les  llama  distribuciones 
marginales  y  vienen  definidas  por  los  valores  que  toma  una  variable  y  la  frecuencia  de 
los  mismos,  al  margen  (de  ahí  el  nombre)  de  los  que  tome  la  otra. 


Consideremos,  por  ejemplo: 


Y 

X 

Vi 

V2 

2/3 

X\ 

nu 

n12 

Wl3 

X2 

ri2\ 

n22 

n2  3 

X3 

n3 1 

n3  2 

n33 

X4 

rm 

n4  2 

n4.3 

Para  saber  el  número  de  veces  que  ha  aparecido  el  valor  x¡,  basta  con  sumar  las 
frecuencias  correspondientes  a  dicha  fila.  Llamando  a  ese  valor  n i,  ,  podemos  poner: 

nu  =  nu  +  n12  +  n13  =  Yfj=i  nXj  ;  en  general:  ni9  =  Y^Li  nij 


Análogamente,  para  la  variable  Y,  tenemos: 

n,j  =  nij  +  n2j  +  n3j  +  nAj  =  Y^¡=\  nL  i  y  en  general:  n9j  =  Y!¡=\  nij 
Además: 


k 

Y.t* 

i— 1 


m 

n»i  =  = 

3= 1  *  i 


Podemos  completar  la  tabla  de  doble  entrada  (llamada  también  de  correlación)  con 
esta  información: 


Y 

X 

2/i 

2/2 

2/3 

nl% 

X\ 

nu 

ni2 

n-i3 

nu 

X2 

n2 1 

n2  2 

n23 

n2. 

X3 

n3 1 

n3  2 

n3  3 

n3. 

X4 

rm 

n42 

n43 

n4. 

n.j 

n,  i 

n.2 

n.3 

N 

Por  ejemplo,  para  las  variables:  A"=estado  civil  e  Y=tipo  de  residencia 
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Y 

X 

Urbano 

Intermedio 

Rural 

Tlim 

Soltero 

191 

180 

129 

500 

Casado 

211 

196 

131 

538 

Viudo 

40 

28 

35 

103 

Otros 

8 

2 

0 

10 

n.j 

450 

406 

295 

1151 

8.3.2.  Distribuciones  condicionadas 

En  ocasiones  estaremos  interesados  en  analizar  un  cierto  subconjunto  de  la  población 
total,  es  decir,  solo  aquellos  elementos  que  cumplen  una  determinada  condición. 

Así  en  la  distribución  conjunta  de  X  e  Y,  podemos  estar  interesados  solo  en  el  análisis 
de  la  variable  X,  pero  refiriéndonos  únicamente  a  aquellos  elementos  para  los  que  la 
variable  Y  toma  un  determinado  valor:  yr. 

Por  ejemplo,  en  el  caso  de  las  familias,  nos  puede  interesar  hacer  un  análisis,  no  de 
todas  las  familias  (96),  sino  solo  de  aquellas  en  las  que  hay  menos  de  3  miembros  activos, 
o  solo  de  aquellas  que  tienen  5  miembros. 


La  variable  X,  sujeta  a  la  condición  de  que  la  Y  tome  el  valor  concreto  yr  ,  la  repre¬ 
sentaremos  por:  X\ y=yr- 

De  igual  forma  se  define  la  variable  Y  condicionada  al  hecho  de  que  la  variable  X  tome 
el  valor  xs  :  Y \x=Xs 

La  frecuencia  relativa  condicionada  f(xt\yj),  se  define  como  la  frecuencia  relativa 

el  que  Y  =  y  y 

n(xi,yj)  _  ni:j 
"(///) 


n(xi,yj)  _  n ¡¡ 
n(xi )  ni9 

Nuestro  universo  son  los  valores  que  cumplen  la  condición,  por  lo  que  la  suma  de  todas 
las  frecuencias  condicionadas  de  X  para  un  valor  dado  de  Y  es  igual  a  1. 


con  que  se  presenta  Xi  ,  dentro  del  subconjunto  en 
Es  decir: 


fixilVj)  = 


f{xi,yj) 

f(Vj) 


fi¿ 


Análogamente 


fivMi)  = 


f(%i ) 


fj¿ 
fi . 


k 

i=  1 


Eti fu  =  lii  =  i 
f-j  f.j  ~ 
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La  distribución  condicionada  de  la  variable  Y ,  dado  un  valor  X  —  se  define 
por  los  valores  qne  toma  la  variable  Y,  y  las  frecuencias  condicionadas  de  Y  asociadas  a 
dichos  valores.  Análogamente  se  define  una  distribución  condicionada  de  la  variable  X. 

Las  distribuciones  condicionadas  son,  en  realidad,  unas  distribuciones  unidimen¬ 
sionales  en  las  que  se  pueden  calcular  las  mismas  características  que  en  estas  últimas. 

Así,  en  la  distribución  condicionada  de  Y,  dado  X  =  Xi,  la  media  vendrá  dada  por  la 
siguiente  expresión: 


y\xi  =  Y  VjfiVj \xi) 
3= i 


Y  la  varianza  vendrá  dada  por: 


s'y\xi =  ~  y\xi)2f(yj\xi) 

3  = 1 


En  el  ejemplo  de  las  familias: 


Y 

X 

1 

2 

3 

4 

5 

6 

7 

8 

1 

7 

10 

11 

16 

8 

1 

1 

0 

2 

0 

2 

5 

6 

6 

2 

0 

0 

3 

0 

0 

1 

6 

4 

3 

1 

1 

4 

0 

0 

0 

0 

2 

1 

1 

1 

Para  las  familias  de  5  miembros,  el  número  medio  de  personas  activas  es  de  2  con  una 
varianza  de  1: 


Xi 

Tii  |  y=5 

\y=5 

A^i\y= 5 

1 

8 

8 

8 

2 

6 

12 

24 

3 

4 

12 

36 

4 

2 

8 

32 

suma 

20 

40 

100 

x\y= 5 


40 

20 


=  2 


®2(*£  |  j/=5  ) 


100  r 

^  =  5 


5  -  22 


1 


Análogamente:  Para  las  familias  de  6  miembros  o  más,  el  número  medio  de  personas 
1 1  49 

activas  es  de  —  =  2.75  con  una  varianza  de  — : 

4  48 
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Xi 

Xi'ft'i \y>6 

x¡ni\y>  6 

1 

2 

2 

2 

2 

2 

4 

8 

3 

5 

15 

45 

4 

3 

12 

48 

suma 

12 

33 

103 

X  |  j/>  6 


33 

12 


11 

T 


2.75 


«2(^|  y>e) 


103 

~12 


103 

~Y2 


49 

48 


Ejemplo: 


Sea  la  siguiente  distribución: 


60  80  100 

Y 

50-70  70-90  90-110 

X 

ni9 

160  150-170 

35  30  5 

70 

180  170-190 

3  48  29 

80 

n.j 

38  78  34 

150 

1.  Frecuencias  conjuntas:  «23  =  29  ;  7112  =  30 


2.  Frecuencias  relativas: 

En  tanto  por  uno  En  tanto  por  ciento 
/n  =  Íj  =  °-23  /n  =  23.3% 

/22  =  ij  =  0.323  f-22  =  32.3  % 

3.  Frecuencias  marginales:  n, 2  =  78  ;  «2.  =  80 

4.  Frecuencias  relativas  marginales: 

En  tanto  por  uno  En  tanto  por  ciento 
/•3  =  ij  =  0-226  /. 3  =  22.6% 

/i*  =  ^  =  °-46  /1.  =46.6% 


5.  Frecuencias  relativas  condicionadas: 

En  tanto  por  uno  En  tanto  por  ciento 

}{x  =  160  \y=so)  =  §  =  0.3846  38.46  % 

f{y  =  100  |x=180)  =  |  =  0.3625  36.25  % 

f{x  =  180  I^íoo)  =  §~6  =  0.4397  43.97% 


6.  Medias  marginales  y  condicionadas: 

160x70+180x80  _  170  6 


X  = 


150 


x  1^=60=  160x353+180x3  =  161.5789 

|  60x3+80x48+100x29  oc  K 

y  |x=180—  - 80 -  —  ot’-'3 
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8.4.  La  covarianza 

¿Cómo  sabemos  si  dos  variables  están  relacionadas? 

Para  estudiar  el  grado  de  covariación  o  variación  conjunta  de  dos  variables  calcularemos 
un  coeficiente  llamado  COVARIANZA. 

o;  EtiE7=i  (xi-xXyj-yhij 

bxY  ~  N 

Si  realizamos  cálculos  en  la  expresión  anterior,  este  coeficiente  se  puede  obtener  tam¬ 
bién  como: 


S'  — 


Ek  \-^\m 

í= i  Ej= i  xiVjnij 

Ñ 


-  xy 


(Esta  expresión  es  más  fácil  de  calcular) 

El  inconveniente  de  este  coeficiente  es  que  viene  medido  en  el  producto  de  las  unidades 
de  las  dos  variables. 

Propiedades:  como  pasaba  con  la  varianza,  al  ser  un  coeficiente  calculado  a  través  de 
las  desviaciones  respecto  a  la  media,  a  este  coeficiente  no  le  afectan  los  cambios  de 
origen  pero  sí  le  afectan  los  cambios  de  escala: 

Si  sabemos  que  X  e  Y  son  dos  variables  cuya  covarianza  es:  Cov(X,  Y)  =  S^y,  y  si 
tenemos  dos  variables  U  y  V,  que  se  obtienen  como  un  cambio  de  origen  y  escala  de  las 
anteriores: 


Ui  =  a  +  bxi,  y  v3  =  c  +  dijj ,  entonces: 

Co v(U,  V )  =  S'uv  =  bdS'XY  =  bdCov(X,  Y) 


Por  último,  diremos  que  dos  variables  X  e  Y  están  incorreladas,  si  su  covarianza  es 
cero:  Syy  =  0. 

Nota:  en  Inferencia  (y  los  programas  estadísticos)  se  usa  la  Cuasicovarianza,  que  se 
obtiene  dividiendo  por  N-l  en  lugar  de  N: 


S  xy  = 


EtiE™!  {x%-x){y3-y)n. 


v 


N-l 


S  XY  ~ 


Ek  \-^\m 

i=  1  Ei= 1  XtlJ-jTlij 


N 


N-l 


xy 


N-l 
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8.5.  Independencia 


Intuitivamente,  se  puede  afirmar  que  dos  variables  son  independientes  entre  sí  cuando 
los  valores  que  toma  una  cualquiera  de  ellas  no  están  afectados  por  los  valores  que  toma 
la  otra. 

Definición:  Dos  variables  son  independientes  si  y  solo  si,  la  frecuencia  relativa  con¬ 
junta  es  igual  al  producto  de  las  frecuencias  relativas  marginales.  Es  decir: 


V¿,  Y j  ■  f(xi,yj )  =  f(xi)f(yj ) 


Las  siguientes  proposiciones  son  equivalentes  a  la  definición  anterior: 


■  Diremos  que  la  variable  Y  se  distribuye  independientemente  de  la  variable  X  si  y 
solo  si,  las  frecuencias  condicionadas  de  yj  (cualquiera  que  sea  el  valor  de  j)  para  los 
distintos  valores  de  X,  son  iguales  entre  si.  Es  decir: 

f(Vj\x  i)  =  f(Vj\x2)  =  ■■■  =  f(yj\xk),Vj 

■  Dos  variables  son  independientes  si  y  solo  si: 

f(Vj)  =  /(%Y¿),Vi,Vj 

Definición:  Dada  una  distribución  bidimensional  ( X,Y ),  diremos  que  las  variables  son 
dependientes  si  y  solo  si,  no  son  independientes.  Es  decir: 


:  f{xi,yj)  Y  f{xi)f{yj) 


Teorema:  Independencia  implica  incorrelación,  pero  el  recíproco  no  es  cierto. 

Es  decir,  que  si  dos  variables  son  independientes,  forzosamente  su  covarianza  es  cero 
(están  incorreladas),  pero  puede  ocurrir  que  la  covarianza  entre  dos  variables  sea  cero,  y 
que  no  sean  independientes. 


Tema  9 


Correlación  y  regresión  lineal 


En  el  tema  anterior  hemos  examinado  el  concepto  de  dependencia  entre  dos  variables, 
estableciendo  el  criterio  para  determinar  si  existe  o  no  tal  dependencia:  fVj  =  fi.f.j 

Sin  embargo,  al  investigador  qne  está  examinando  la  relación  qne  existe  entre  dos 
variables  no  solo  le  interesa  saber  si  las  variables  son  independientes  o  no,  sino  qne  además, 
para  profundizar  en  este  análisis,  será  importante: 

■  medir  el  grado  de  asociación. 

■  conocer  la  forma  concreta  en  la  que  se  relacionan. 

Precisamente  para  dar  respuesta  a  estas  dos  cuestiones  se  han  desarrollado  las  técnicas 
estadísticas  de  correlación  y  regresión. 

La  Correlación:  estudia  el  grado  de  asociación  entre  las  componentes  de  la  variable 
estadística,  y  su  objetivo  es  construir  coeficientes  que  determinen  si  hay  o  no  cova- 
riación. 

La  Regresión:  se  encarga  de  la  determinación  (si  es  posible)  de  aquella  estructura  de 
dependencia  que  mejor  exprese  el  tipo  de  relación  existente  entre  las  componentes. 
Es  decir,  tratará  de  obtener  (si  es  posible)  una  relación  funcional  entre  las  com¬ 
ponentes:  y  =  f(x),  en  el  caso  bidimensional,  o  y  =  f(x i,x2,  •  •  •  ,Xk-i),  en  el  caso 
k-  dimensional. 

Podemos  encontrarnos  con  distintas  situaciones: 


relación  lineal 
directa. 

Poca  dispersión 


relación  lineal 
inversa. 
Gran  dispersión 


relación 
curvilínea. 
Poca  dispersión 


NO  hay  relación 


145 


146 


TEMA  9.  CORRELACION  Y  REGRESION  LINEAL 


Es  importante  señalar  que  la  aplicación  de  estas  técnicas  estadísticas  exige  un  análisis 
teórico  previo  de  la  relación  que  existe  entre  las  variables  objeto  de  estudio,  pues  lo 
contrario  puede  conducirnos  a  resultados  absurdos. 

Debe  tenerse  en  cuenta  que  la  dependencia  estadística  observada  entre  dos  variables 
puede  obedecer  a  tres  motivos  diferentes: 

■  Al  azar. 

Podemos  tomar  dos  variables  para  las  que  en  principio  no  tiene  ningún  sentido 
estudiar  su  relación  y  descubrir  que,  casualmente,  guardan  una  estrecha  relación. 

Es  famoso  el  ejemplo  propuesto  por  G.  M.  Jenkins:  el  paralelo  crecimiento  del  núme¬ 
ro  de  nacidos  y  el  de  cigüeñas  en  Baviera. 

Otro  ejemplo:  podemos  encontrar  que  en  los  últimos  20  años,  han  crecido  de  forma 
paralela  el  número  de  divorcios  en  Suecia  y  los  automóviles  fabricados  en  España. 
Es  evidente  que  carece  de  sentido  llevar  a  cabo  un  estudio  que  relacione  dichas 
variables. 

■  Una  tercera  variable  influye  sobre  las  dos  consideradas. 

Por  ejemplo,  el  aumento  en  el  consumo  de  Whisky  y  la  compra  de  automóviles, 
pueden  moverse  en  una  misma  dirección  a  causa  de  la  influencia  que  ejerce  sobre 
los  mismos  la  renta  disponible. 

La  relación  entre  la  demanda  de  mobiliario  y  el  aumento  del  precio  del  suelo,  puede 
ser  debida  al  aumento  de  la  construcción. 

■  Una  variable  influye  en  la  otra  (la  relación  es  de  carácter  causal). 

La  relación  que  se  establece  entre  las  dos  variables  consideradas  es  de  carácter  causal. 
Por  ejemplo:  el  gasto  en  ropa,  realizado  por  una  familia,  viene  influido  por  la  renta 
que  percibe. 

Como  parece  lógico,  las  relaciones  que  nos  interesará  analizar  son  las  de  carácter  causal, 
donde  una  variable  llamada  explicativa  (o  exógena),  determina  el  comportamiento  de 
otra  variable  llamada  explicada  (o  endógena). 


9.1.  Correlación  lineal 


El  grado  de  asociación  existente  entre  dos  variables,  puede  medirse  mediante  las  técni¬ 
cas  de  correlación.  Estas  técnicas  nos  proporcionan  unos  coeficientes  que  nos  cuantifican 
ese  grado  de  asociación. 

El  coeficiente  de  correlación  más  importante,  es  el 

Coeficiente  de  correlación  lineal  de  Pearson: 

Q' 

_  Wy 
Lyy  ~  q/  q/ 

Ay  5  y 
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El  coeficiente  de  correlación  lineal  se  utiliza  para  medir  el  grado  de  asociación  lineal 
entre  dos  variables. 

Importante:  que  este  coeficiente  sea  cero  solo  significa  que  las  variables  no  tienen 
ninguna  relación  lineal,  pero  pueden  tener  otro  tipo  de  relación. 

El  valor  de  este  coeficiente  varía  entre  -1  y  1,  y  su  signo  dependerá  del  signo  de  la 
covarianza. 

Cuanto  más  se  aleje  este  coeficiente  de  cero  (hacia  el  1  o  hacia  el  -1)  mayor  será  la 
relación  lineal  entre  las  variables. 

En  el  caso  extremo  de  que  el  coeficiente  sea  1  o  -1,  tendremos  la  máxima  relación 
lineal,  lo  que  significa  que  todos  los  puntos  observados  están  alineados. 

El  signo  del  coeficiente,  que  es  el  signo  de  la  covarianza,  nos  indica  si  la  relación  lineal 
entre  las  variables  es  directa  (positivo:  cuando  los  valores  de  una  variable  crecen,  los  de 
la  otra  también  lo  hacen)  o  inversa  (negativo:  cuando  los  valores  de  una  variable  crecen, 
los  de  la  otra  decrecen). 

Gráficamente: 


0  <  1  <  1 


-1  <  r  <  0 
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TEMA  9.  CORRELACION  Y  REGRESION  LINEAL 


9.2.  Regresión  lineal 


Una  vez  que  hemos  especificado  que  la  relación  entre  dos  variables  es  de  tipo  lineal, 
su  formulación  sería  la  siguiente:  y*  =  a  +  bxt 

El  objeto  de  la  regresión  es  la  determinación  del  valor  de  los  parámetros  del  modelo 
(en  este  caso  a  y  b)  a  partir  de  un  conjunto  de  observaciones  sobre  las  variables. 

La  determinación  de  los  parámetros  se  puede  hacer  por  varios  métodos;  nosotros  vamos 

a  utilizar  el  método  de  regresión  minimocuadrática. 

La  idea  del  método  es  la  siguiente: 

Supongamos  que  se  ha  determinado  que  existe  una  relación  lineal  entre  las  variables 
X=renta  familiar  e  Y— gasto  en  ropa ,  entonces,  el  modelo  teórico  que  define  esta  relación 
será: 

y*  —  a  +  bxi 


El  gasto  de  una  familia  en  ropa,  puede  estar  influenciado  especialmente  por  la  renta, 
pero  en  ningún  caso  se  puede  esperar  que  esta  variable  explique  completamente  el  gasto 
en  el  vestir.  Existen  otros  factores:  composición  de  la  familia,  clima,  ideología,  influencia 
de  la  moda,...  que  también  ejercen  una  influencia  en  mayor  o  menor  grado. 

El  número  de  estos  factores  puede  ser  infinito.  Además,  como  la  sencillez  de  los  modelos 
es  otra  ventaja  o  propiedad  a  destacar,  conviene  incluir  el  mínimo  número  de  variables 
posibles  en  los  mismos.  Para  corregir  esta  anomalía  expresaremos  el  modelo  de  la  siguiente 
forma: 


y  i  =  a  +  bxi  +  e¿ 

donde  e¿  representa  el  error  que  cometemos  al  explicar  el  gasto  en  ropa  en  función  única¬ 
mente  de  la  renta,  y  que  viene  causado  por  múltiples  efectos  de  procedencia  muy  dispar. 

Por  lo  tanto,  lo  que  tenemos  es  un  conjunto  de  pares  (x¿,  yt)  a  los  que  se  quiere  ajustar 
una  recta: 


Y*  =  a-*X  j 

Para  cada  valor  de  la  variable  X  (renta),  tenemos  dos  valores  del  gasto:  un  valor  del 
gasto  real  (U)  y  un  valor  del  gasto  teórico  (E*).  Por  lo  tanto,  el  error  es  la  diferencia  entre 
ambos: 


(■i  =  Vi~  Vi 
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Este  error  es  el  residuo  o  diferencia  que  queremos  que  sea  lo  menor  posible. 

Por  lo  tanto,  el  problema  consiste  en  encontrar  los  valores  de  los  parámetros 
a  y  b  del  modelo,  que  minimicen  el  error. 

Pero  ¿qué  es  lo  que  ocurre?,  pues  que  como  algunos  errores  son  positivos  y  otros  nega¬ 
tivos  se  pueden  compensar.  Para  evitar  compensaciones,  lo  que  haremos  será:  Minimizar 
la  suma  de  los  cuadrados  de  los  errores  (de  ahí  la  denominación  minimocuadrática): 

minimizar  Y2  e¡ 

Para  simplificar  la  notación,  supondremos  el  caso  de  una  distribución  bidimensional 
de  frecuencias  unitarias,  caso  al  que  se  pueden  reducir  los  demás,  sin  más  que  repetir  la 
pareja  de  valores  tantas  veces  como  nos  indica  su  frecuencia. 

Vamos  a  calcular  los  coeficientes  de  la  recta  que  nos  da  los  valores  de  la  variable 
Y  (variable  explicada)  en  función  de  los  valores  de  la  variable  X  (variable  explicativa), 
utilizando  el  método  de  regresión  minimocuadrática. 

Se  trata  de  obtener  los  parámetros  a  y  b  de  la  recta  (modelo  teórico)  y*  =  a  +  bxi , 
que  mejor  se  ajusta  a  la  nube  de  puntos,  utilizando  el  método  de  ajuste  de  los  mínimos 
cuadrados. 

Es  decir,  que  queremos  encontrar  los  valores  de  los  parámetros  a  y  b  del  mo¬ 
delo,  de  modo  que  minimizan  la  suma  de  los  cuadrados  de  los  errores 


N  N 

2 


N 


Y  e]  =  mín  Y.('!L  ~  vlf  =  mín  Yj^Ví  ~  a  ~  =  mín  Siai  b) 


min  y  ei  =  min 

i= 1  i=l 


i= 1 


El  mínimo  de  esta  función  se  obtiene  cuando: 

b  =  y  entonces  a  —  y  —  bx 

A  la  recta  Y*  =  a  +  bX  construida  con  estos  parámetros  se  le  denomina:  Recta  de 
regresión  de  Y  sobre  X,  y  se  representa  como:  Y \X 

La  recta  de  regresión  minimocuadrática,  que  explica  los  valores  de  la  variable  Y  en 
función  de  los  valores  de  la  variable  X  se  puede  escribir  de  varias  formas: 

Cuando  está  escrita  de  la  forma:  Y*  =  a  +  bX ,  diremos  que  está  en  forma  explícita 
(es  la  forma  habitual). 


Sin  embargo,  cuando  sustituimos  los  coeficientes  de  la  recta  por  su  valor: 

*  — 

Vi  =  y 

obtenemos  otra  expresión  de  la  misma  recta: 


q/  q/ 

zXX^  i  zNXt. 

q'2  '  q'2  1 

5 x 


o/ 

*  -  °XY  /  -\ 

Vi  -  y=  -wy(xí-x) 
Ay 


denominada  forma  punto-pendiente. 
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Análogamente,  dada  una  variable  bidimensional  (X,  y),  podemos  construir  la  recta 
de  regresión  minimocuadrática  de  X  sobre  Y. 

Es  decir:  el  modelo  teórico  que  explica  los  valores  de  la  variable  X  en  función  de  los 
valores  de  la  variable  Y. 

Dicha  recta  será: 


S'  - 

X\Y  :  X*  =  a  +  bY,  donde:  b  =  y  a  =  x  —  by 

Sy 


Ejemplo: 


Xi 

Vi 

t.2 

xi 

Vi 

%iVi 

10 

2 

100 

4 

20 

15 

4 

225 

16 

60 

20 

8 

400 

64 

160 

25 

12 

625 

144 

30 

30 

9 

900 

81 

270 

100 

35 

2250 

309 

810 

Realizamos  los  cálculos: 


100  35  ,9  2250  9 

x  =  —  =  20  ;  y  =  -  =  7  ;  S  J  =  —  -  202  =  50 


309 


810 


Sy  = - 72  =  12.8  y  por  último  SDy  = - 20  x  7  =  22 

5  5 


Entonces  las  rectas  de  regresión  son: 


/  22  \  22 

Y\X  :  y*  =  í  7  -  -  x  20J  +  -Xi  =  -1.8  +  0.44a;, 

Es  decir:  Y \X  :  y*  =  —1.8  +  0.44a;¿,  que  explica  el  comportamiento  de  la  variable  Y 
en  función  de  los  valores  que  toma  la  variable  X. 

Y  la  otra  recta  de  regresión  es: 


/  22  \  22 

X|F  :  =  (  20  “  ^2  8  X  7  )  +  128Vi  =  7’96875  +  L7187% 

Es  decir:  X\ Y  :  x*  =  7.96875  +  1.71875t/¿,  que  explica  el  comportamiento  de  la  variable 
X  en  función  de  los  valores  que  toma  la  variable  Y. 
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Propiedad  de  las  rectas  de  regresión: 

■  Las  rectas  de  regresión  se  cortan  en  el  punto  (x,y). 

Es  decir,  que  este  punto  verifica  la  ecuación  de  las  dos  rectas. 

Nota:  como  el  signo  de  la  pendiente  de  las  rectas  de  regresión  depende  del  signo  de  la 
covarianza,  ambas  rectas  tiene  la  pendiente  del  mismo  signo. 

Es  por  esto  que  o  bien  ambas  rectas  son  crecientes  (pendientes  positivas)  o  ambas  rectas 
son  decrecientes  (pendientes  negativas). 


9.3.  Análisis  de  la  bondad  del  ajuste 


Lina  vez  realizado  un  ajuste,  interesa  constatar  en  qué  medida  queda  explicada  la 
variable  endógena  mediante  el  modelo  estimado. 

LIn  criterio  bastante  razonable  para  medir  la  bondad  de  cualquier  ajuste  es  medir  la 
proporción  de  varianza  total  explicada  por  el  modelo. 

Por  ello,  se  toma  como  indicador  de  la  bondad  del  ajuste,  el  cociente: 

s'2* 

R2  =  —7v  =  Coeficiente  de  determinación 

s;2 

El  coeficiente  de  determinación  R2  ,  nos  indica  el  tanto  por  uno  de  la  variación 
de  Y  explicada  por  la  variable  X. 

¿Cómo  es  este  coeficiente  en  el  caso  de  que  ajustemos  un  modelo  lineal? 

En  primer  lugar,  debemos  notar  que  a  partir  de  la  distribución  original  (A",  Y ),  pode¬ 
mos  obtener  otras  dos  distribuciones  unidimensionales:  las  de  y*  y  la  de  e¿. 

Cada  una  de  estas  nuevas  distribuciones,  tendrá  sus  características  (su  media  y  su 
varianza) . 

Además,  en  el  caso  de  la  regresión  lineal  minimocuadrática  se  cumple  que: 

c'2  _  q'2  i  q'2 

o  y  —  Oy*  oe 

Es  decir:  la  Varianza  total  =  Varianza  explicada  por  la  regresión  +  Varianza  residual 
(no  explicada). 

Entonces,  dividiendo  la  expresión  anterior  por  Sy ,  podemos  expresar  el  coeficiente  de 
determinación  de  la  siguiente  manera: 


R2  =  1  - 
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(este  resultado  es  válido  en  el  caso  lineal,  pero  no  con  otros  modelos) 

Ejemplo:  si  R2  =  0.99,  esto  indica  que  el  99%  de  la  variación  de  Y  está  explicado  por 
la  variable  X.  Por  lo  tanto  se  trata  de  un  buen  ajuste. 

Este  resultado  también  nos  indica,  en  el  caso  lineal,  qne  el  porcentaje  de  variación  de 
la  variable  Y,  que  no  está  explicado  por  la  variable  X  es  del  1  %. 


Los  límites  de  variación  se  pueden  ver  fácilmente  a  través  de  la  siguiente  formula¬ 
ción: 


R2  =  1  - 


■  Cuando  la  línea  ajustada  pasa  por  los  puntos  observados,  todos  los  residuos  serán 
nulos,  y  por  lo  tanto:  Se2  =  0  y  R  2  =  1  . 

Este  será  el  máximo  valor  del  coeficiente,  y  en  consecuencia,  la  variación  de  Y  viene 
totalmente  explicada  por  X.  Se  trata  de  un  ajuste  perfecto. 

■  Por  el  contrario,  si  la  varianza  explicada  por  la  regresión  es  nula,  entonces:  R2  =  0. 
Este  es  el  mínimo  valor  que  puede  tomar  el  coeficiente  de  determinación. 

El  significado  de  este  valor  es  que  no  existe  ningún  tipo  de  relación  lineal  entre  las 
variables  X  e  Y  (que  la  variación  de  X  no  afecta  para  nada,  linealmente,  a  la 
variación  de  Y) 

(No  hay  qne  olvidar  qne  el  hecho  de  que  no  haya  relación  lineal  no  significa  qne  no 
pueda  existir  relación  de  algún  otro  tipo) 


Cálculo  de  la  varianza  residual 

Si  tenemos  el  modelo  lineal  y*  =  a  +  bxi,  como  esto  no  es  más  qne  un  cambio  de  origen 
y  escala,  sabemos  qne: 


62S^  = 


V2 

3xyQ'2 

— 


q'4 


s'2 

q'2 


=  6S' 


XY 


Como  en  el  caso  lineal  sabemos  qne  se  cumple  que: 


Entonces: 


Esta  fórmula  nos  permite  calcular  la  varianza  residual  en  función  de  las  varianzas  de 
las  distribuciones  marginales  y  de  la  covarianza  de  la  distribución  bi dimensional. 


9.4.  APLICACIONES  DE  LA  REGRESION 
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9.4.  Aplicaciones  de  la  regresión 


Son  tres  las  aplicaciones  más  importantes  de  la  regresión: 

1.  LA  PREDICCIÓN.  Esta  es  la  aplicación  más  importante  de  la  regresión. 

La  predicción  consiste  en  determinar,  a  partir  del  modelo  estimado,  el  valor  que 
toma  la  variable  explicada,  para  un  valor  dado  de  la  variable  explicativa. 

Por  ejemplo:  Supongamos  que  en  el  caso  de  Y  =  gasto  en  ropa  y  X  =  renta  dispo¬ 
nible ,  tenemos  que:  y*  =  —20  +  0.044x¿ 

Entonces:  si  conocemos  un  valor  concreto  de  la  renta  Xq  =  3500  ,  podemos  hacer 
una  predicción  teórica  del  gasto  y$  =  —20  +  0.044  x  3500  =  134 

A  partir  de  un  modelo  estimado,  podemos  hacer  dos  tipos  de  predicciones: 

■  Interpolación:  Para  valores  (xo)  de  la  variable  explicativa  que  estén  situados 
dentro  del  intervalo  de  variación  de  los  datos. 

■  Extrapolación:  Para  valores  de  la  variable  explicativa  situados  fuera  del  in¬ 
tervalo  de  variación  de  los  datos. 

Al  hacer  predicciones  a  partir  de  un  modelo  dado,  conviene  hacer  las  siguiente 
observaciones: 

■  La  fiabilidad  de  los  pronósticos  para  la  variable  endógena  será  tanto  mejor 
cuanto  mejor  sea  el  ajuste,  (es  decir:  cuanto  mayor  sea  R 2,  mejores  serán  los 
pronósticos),  en  el  supuesto  de  que  exista  una  relación  causal  entre  las  variables. 

■  La  fiabilidad  de  los  valores  pronosticados  decrece  a  medida  que  el  valor  de  la 
variable  explicativa  (en  la  que  se  basa  la  predicción)  se  aleja  de  la  media  (x). 

Cuando  hacemos  predicciones  para  valores  muy  alejados  del  centro  de  gravedad  de 
la  distribución  utilizada  en  el  ajuste,  se  corre  el  peligro  adicional  de  que  no  sea 
válido  el  modelo  utilizado. 

Ejemplo:  Puede  ser  aceptable  el  proponer  una  relación  lineal  entre  el  gasto  en  ro¬ 
pa  y  la  renta  disponible,  para  unos  valores  de  la  variable  explicativa,  digamos  en 
(500,5000),  pero  a  partir  de  ahí,  es  lógico  pensar  que  el  gasto  en  ropa  tenga  menor 
constante  de  proporcionalidad,  es  decir,  que  a  partir  de  un  valor  en  adelante,  varía 
la  pendiente  (como  se  indica  en  la  figura) 


Entonces,  si  efectuamos,  a  partir  de  nuestro  modelo,  la  predicción  para  una  renta 
de:  Xq  =  10000,  obtendríamos  que  yo*=420,  que  no  tendría  ninguna  fiablilidad. 
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Es  decir,  la  fiabilidad  depende,  tanto  de  la  bondad  del  modelo  como  de  la  proximidad 
a  los  valores  con  los  que  ha  sido  estimado  el  mismo. 


2.  CALCULO  DE  FUNCIONES  MARGINALES. 

La  función  marginal  representa  la  variación  en  unidades  de  la  variable  explicada  al 
variar  en  una  unidad  la  variable  explicativa. 

¿Y 

El  cálculo  de  la  función  marginal  viene  dado  por:  marginal  = 

En  el  caso  del  modelo  lineal,  Y*  =  a  +  bX,  la  función  marginal  es  el  coeficiente 
angular  (pendiente  de  la  recta): 


Q' 

marginal  =  b  =  — jy- 
S x 

3.  CALCULO  DE  ELASTICIDADES. 

El  coeficiente  de  elasticidad  de  Y  con  respecto  a  X  será:  la  variación  porcentual  que 
experimenta  Y  al  variar  X  en  un  1  %. 

En  Economía,  se  utiliza  mucho  el  concepto  de  elasticidad  de  la  demanda  o  de  la 
oferta. 

Es  un  concepto  ideado  con  objeto  de  indicar  el  grado  en  que  la  demanda  (Q)  o 
la  oferta  (O)  responden  a  variaciones  del  precio  del  mercado  (P).  Depende  esen¬ 
cialmente  de  las  variaciones  porcentuales,  y  es  independiente  de  las  unidades  que 
utilicemos  para  medir  Q  (u  O)  y  P. 

Ejemplo:  La  elasticidad-precio  de  la  demanda,  la  definiríamos  como  la  relación  por¬ 
centual,  o  cambio  porcentual  en  la  cantidad  demandada  de  un  bien,  que  resulta  del 
cambio  en  un  1  %  en  el  precio. 

Analíticamente: 

_  f1  _  X  dY 
£y*/x  ~Tx~  YdX 

si. 

En  el  caso  del  modelo  lineal,  Y*  =  a  +  bX,  la  función  de  elasticidad  es: 

,  -  Xh 

£y*/x  — 

Ejemplo:  En  el  caso  de  Y=gasto  en  ropa  y  X=renta  disponible,  para  el  que  hemos 
considerado  que  y*  =  —20  +  0.044a;¿,  la  función  de  elasticidad  es: 

£y*/x  =  0.044^ 

Entonces,  si  calculamos  la  elasticidad  para  un  valor  concreto,  por  ejemplo  para 

xo  =  600,  se  tiene,  según  el  modelo,  que  yo  =  6.4 

por  lo  tanto,  la  elasticidad  en  este  punto  es:  £y*/x  =  4.125 

Esto  significa  que,  si  el  valor  Xo  =  600  aumenta  en  un  1%,  entonces  el  correspon¬ 
diente  valor  de  yo  que  habíamos  obtenido,  aumentará  en  un  4.125%. 
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9.5.  Ejemplo  resuelto 


Se  quiere  hacer  un  estudio  sobre  la  relación  entre  la  velocidad  de  los  vehículos  y  el 
consumo  de  combustible. 

En  la  siguiente  tabla  se  muestran  los  consumos  observados,  en  litros  por  cada  100  km, 
para  cierto  tipo  de  vehículos  a  distintas  velocidades: 


Velocidad  ( V ) 

80 

80 

80 

80 

120 

120 

120 

120 

140 

140 

Consumo  ( C ) 

4.5 

5.8 

5.0 

5.5 

6.0 

6.6 

7.2 

6.5 

7 

8.5 

1.  ¿Se  puede  aceptar  o  no  que  existe  una  relación  lineal  entre  el  consumo  y  la  velocidad? 

2.  Determina  la  ecuación  lineal  que  nos  da  el  consumo  en  función  de  la  velocidad  del 
vehículo. 

3.  ¿Qué  porcentaje  de  la  variabilidad  del  consumo  no  está  explicado  por  la  velocidad? 

4.  Para  una  velocidad  de  110  krn/h  ¿cuál  será  el  consumo  estimado?,  ¿es  fiable  esta 
estimación? 

5.  Si  la  velocidad  anterior,  110  km/h  se  incrementa  en  un  1%,  ¿en  qué  porcentaje 
variará  el  consumo? 


Solución: 


1.  ¿Se  puede  aceptar  o  no  que  existe  una  relación  lineal  entre  el  consumo  y  la  velocidad? 

Para  determinar  si  existe  o  no  relación  lineal  entre  las  variables,  calculamos  el  coe¬ 
ficiente  de  correlación  lineal. 

S’cv 


Para  obtenerlo  debemos  calcular  las  varianzas  y  la  covarianza.  Hacemos  los  cálculos 
previos: 


V 

C 

V2 

C2 

CV 

80 

4.5 

6400 

20.25 

360 

80 

5.8 

6400 

33.64 

464 

80 

5.0 

6400 

25.00 

400 

80 

5.5 

6400 

30.25 

440 

120 

6.0 

14400 

36.00 

720 

120 

6.6 

14400 

43.56 

792 

120 

7.2 

14400 

51.84 

864 

120 

6.5 

14400 

42.25 

780 

140 

7.0 

19600 

49.00 

980 

140 

8.5 

19600 

72.25 

1190 

1080 

62.6 

122400 

404.04 

6990 

Entonces: 
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S 1  cv  = 


C'2  _ 
— 


s'2  - 


6990 

U~ 

122400 

10 

404.04 

10 


Luego: 


1080  62.6 

TÓ  ÍT 

/ 1080\  2 

\~WJ 


62.6 

~W 


■  22.92 

=  576 

1.2164 


S’cy  _  22.92 

S’CSV  ~~  v?576  x  1.2161 


0.86589 


Esto  significa  que  hay  bastante  relación  lineal  (el  coeficiente  está  próximo  a  1) 
y  además  la  relación  es  directa  (el  coeficiente  es  positivo  porque  la  covarianza  es 
positiva),  lo  que  indica  que  a  medida  que  aumenta  la  velocidad  aumenta  también  el 
consumo. 


2.  Determina  la  ecuación  lineal  que  nos  da  el  consumo  en  función  de  la  velocidad  del 
vehículo. 


Vamos  a  construir  el  modelo  lineal  que  nos  da  el  consumo  en  función  de  la  velocidad: 
C*  =  a  +  bV. 


Los  coeficientes  del  modelo  son: 


b  = 


S’ 


cv 


q'2 


22.92 

576 


=  0.03979 


a  =  c-bv  =  6.26  -  0.03979  x  108 


1.96268 


Entonces: 


C*  =  1.96268  +  0.03979V 


3.  ¿Qué  porcentaje  de  la  variabilidad  del  consumo  no  está  explicado  por  la  velocidad? 

Sabemos  que  el  coeficiente  de  determinación  representa  la  proporción  de  la  variabi¬ 
lidad  del  consumo  que  está  explicada  por  el  modelo.  Por  lo  tanto,  la  proporción  no 
explicada  será  1  —  R2. 


T3  2  _ 

J XCV  — 


n'2 

DCV 

q'2q'2 

‘-’cV 


=  0.865892  =  0.74977 


El  modelo  explica  un  74.977%  de  la  variabilidad  del  consumo  en  función  de  la 
velocidad,  por  lo  tanto,  como  1  —  R2  =  0.25023: 


El  porcentaje  de  la  variabilidad  del  consumo  que  no  está  explicado  por 
la  velocidad  es  del  25.023  %. 


4.  Para  una  velocidad  de  110  km/h  ¿cuál  será  el  consumo  estimado?,  ¿Es  fiable  esta 
estimación? 

Para  hacer  la  estimación,  basta  utilizar  la  recta  que  acabamos  de  calcular: 

Si  V  =  110,  entonces:  C*  =  1.96268  +  0.03979  x  110  =  6.33958 

Es  decir,  que  a  110  km/h  el  consumo  estimado  es  de  unos  6.34  litros. 
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Para  ver  si  esta  estimación  es  fiable  se  deben  comprobar  dos  cosas,  por  un  lado  la 
bondad  del  modelo  y  por  otro  la  proximidad  a  los  datos  utilizados  para  la  construc¬ 
ción  del  modelo.  En  nuestro  caso: 


■  Bondad  del  ajuste:  R2  =  0.74977,  el  modelo  es  bastante  bueno. 

■  Proximidad:  110  es  un  valor  que  está  dentro  del  rango  de  velocidades  utilizadas 
(de  80  a  140),  es  decir  que  estamos  haciendo  una  interpolación  y  por  lo  tanto 
se  cumple  la  condición  de  proximidad. 

Entonces:  La  predicción  SÍ  es  fiable 


5.  Si  la  velocidad  anterior,  110  km/h  se  incrementa  en  un  1%,  ¿en  qué  porcentaje 
variará  el  consumo? 

Para  responder  a  esta  pregunta  basta  con  calcular  la  elasticidad: 


dCV  T  nnnnnn  110 
£c/v  ~  dVC  ~bC  -  '  796.33958  “ 

El  consumo  aumenta  en  un  0.69%. 


0.69041 


También  se  puede  responder  a  esta  pregunta  directamente: 

Si  V  =  110,  entonces:  C*  =  1.96268  +  0.03979  x  110  =  6.33958 

Si  V'  =  110  x  0.01  =  111.1,  entonces:  C*  =  1.96268  +  0.03979  x  111.1  =  6.38335 

La  variación  porcentual  será: 


6.38335  -  6.33958 
6.33958 


x  100 


0.69042 


Es  decir  que  el  consumo  aumenta  en  un  0.69%. 


Tema  10 


Análisis  estadístico  de  datos 
cualitativos 


Este  curso  se  ha  centrado  principalmente  en  el  análisis  de  variables  cuantitativas  uni¬ 
dimensionales  y  bidimensionales. 

¿Qué  ocurre  con  las  variables  cualitativas?  Con  lo  visto  hasta  ahora,  prácticamente 
no  podríamos  pasar  de  construir  una  tabla  de  frecuencias  y  hacer  alguna  interpretación 
frecuentista  de  la  misma  o  realizar  algún  gráfico.  La  parte  de  la  Estadística  que  nos  permite 
analizar  las  cualidades  o  características  no  medibles  es  la  Estadística  de  atributos. 

Sabemos  que  cuando  las  observaciones  solo  se  pueden  expresar  en  una  escala  nominal, 
lo  único  que  podemos  hacer  es  construir  la  tabla  de  frecuencias  (contar  las  apariciones 
de  cada  valor),  y  en  este  caso,  la  única  medida  que  nos  sirve  de  resumen  es  la  moda. 
Sin  embargo,  cuando  los  valores  de  la  variable  corresponden  a  una  escala  ordinal,  para 
resumir  la  información,  además  de  la  moda  también  podemos  utilizar  la  mediana. 

Nos  podríamos  plantear  ahora,  tal  como  hemos  hecho  en  el  tema  anterior,  si  existe 
algún  tipo  de  relación  entre  las  variables  para  características  de  este  tipo.  En  este  tema 
vamos  a  ver,  sin  entrar  en  muchos  detalles,  cómo  podemos  cuantificar,  si  existe,  la 
relación  entre  dos  variables  cualitativas. 

Cuando  los  caracteres  estudiados  son  susceptibles  de  ser  ordenados  de  acuerdo  con 
una  determinada  escala,  podremos  llegar  a  unos  coeficientes  de  correlación  que  midan  el 
grado  de  asociación  entre  las  variables.  Estos  coeficientes  están  basados  en  los  rangos  u 
órdenes  de  las  observaciones. 

En  el  caso  de  observaciones  nominales,  estableceremos  los  llamados  coeficientes  de 
asociación  y  contingencia. 


10.1.  Correlación  por  rangos 


Para  dos  variables  ordinales,  queremos  medir  su  grado  de  asociación. 
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Lo  haremos  mediante  el  coeficiente  de  correlación  por  rangos  de  Spearman. 


Cada  variable  tiene  una  serie  de  valores  que  pueden  ser  ordenados,  por  lo  tanto,  a 
cada  uno  de  ellos  le  podemos  asociar  su  correspondiente  rango  o  número  de  ranking  (en 
caso  de  empates  utilizaremos  el  criterio  del  rango  central). 


El  coeficiente  que  vamos  a  calcular  se  basa  en  la  comparación  de  los  rangos  para  las 
dos  variables: 


P 


6  Ef=i4 

N3  —  N 


donde  es  la  diferencia  entre  los  rangos  en  las  dos  variables  para  cada  caso. 

Este  coeficiente  es  muy  fácil  de  calcular,  aunque  se  emplea,  sobre  todo,  cuando  tenemos 
menos  de  20  observaciones. 

A  este  coeficiente  también  se  le  llama  coeficiente  de  correlación  ordinal. 
Interpretación  del  valor  p\ 

El  valor  de  este  coeficiente  varía  entre  -1  y  +1. 


■  Cuando  la  concordancia  entre  los  rangos  es  perfecta,  entonces  las  diferencias  son 
todas  nulas  y  por  lo  tanto  el  coeficiente  es  igual  a  1. 

■  Cuando  existe  discordancia  total,  los  pares  de  rangos  vienen  dados  por: 

N  jy3  _  jy 

(N;  1),  (iV  —  1;  2), . . . ,  (1;  N).  En  ese  caso,  V''  di  =  - - - ,  por  lo  que  el  coeficiente 

¿= i  3 

valdrá  -1. 

■  Cuando  el  coeficiente  tiene  valor  cero,  indica  que  no  existe  relación  entre  los  rangos 
de  ambas  variables. 


Ejemplo: 

Los  ranking  de  5  hoteles,  según  su  ocupación  y  su  precio  son  los  que  se  dan  en  la 
siguiente  tabla.  Calcula  el  coeficiente  de  correlación  por  rangos  de  Spearman,  para  medir 
el  grado  de  asociación  de  ambas  variables: 


Hotel 

Ranking  en  ocupación 

Ranking  en  precio 

Diferencia  (d¿) 

di 

A 

1 

3 

-2 

4 

B 

2 

4 

-2 

4 

C 

3 

2 

1 

1 

D 

4 

1 

3 

9 

E 

5 

5 

0 

0 

Suma 

18 

6EÜi  ^  6x18  108 

N3-N  53  -  5  120 


0.1 
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El  coeficiente  está  próximo  a  cero,  lo  que  nos  indica  que  el  ranking  en  ocupación  tiene 
muy  poco  que  ver  con  el  ranking  en  precio. 


10.2.  Asociación  entre  caracteres  nominales 


La  observación  de  dos  caracteres  nominales  da  lugar  a  una  tabla  de  doble  entrada, 
en  la  que  nt]  indica  el  número  de  objetos  o  individuos  que  poseen  simultáneamente  las 
modalidades  i-ésima  del  primer  atributo  y  j-ésima  del  segundo. 

A  estas  tablas  se  les  denomina  tablas  de  contingencia. 

Las  distribuciones  de  frecuencias  de  cada  uno  de  los  atributos  también  se  denominan 
distribuciones  marginales. 

Lina  tabla  de  contingencia  tiene  la  siguiente  forma: 


Atributo  B 
Atributo  A 

Modalidad 

Total 

Bi 

b2  ... 

Bk 

Ai 

nn 

n12  . . . 

n\k 

ni. 

Modalidad 

A2 

ri2\ 

n2  2  •  •  • 

n2k 

n2. 

Ah 

rihi 

nh 2  ■  ■  ■ 

nhk 

nh. 

Total 

n,  1 

n,  2  . . . 

n,k 

N 

10.2.1.  Tablas  de  contingencia  2x2 

La  clasificación  por  atributos  más  sencilla  es  la  dicotómica,  es  decir,  aquella  en  la  que 
cada  atributo  solo  tiene  dos  modalidades  posibles  (mutuamente  excluyentes) . 

Por  ejemplo: 


Tener  trabajo  ( B ) 

Bi 

Sexo  (A) 

(Sí) 

(No) 

Total 

Ai{mujer) 

nu 

ni2 

ni. 

A2(hombre) 

n2 1 

n22 

n2. 

Total 

n,  1 

n,  2 

N 

Se  dice  que  dos  atributos  son  independientes  cuando  entre  ellos  no  existe  ninguna 
influencia  mutua. 

En  el  caso  del  ejemplo,  no  hay  influencia  entre  los  dos  atributos  si  la  proporción  de 
personas  con  trabajo  entre  las  mujeres  es  igual  a  la  proporción  de  personas  con  trabajo 
entre  los  hombres,  e  igual  a  la  proporción  de  personas  con  trabajo  al  margen  del  sexo.  Es 
decir: 


nu  _  n2 1  _  n,i 

nu  n2,  N 
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Haciendo  operaciones  se  puede  ver  que  esto  es  equivalente  a  decir  que:  <  _  n2Nn 

l  n2i  -  “i r~ 

y  lo  mismo  ocurre  con  las  demás  modalidades:  n%]  =  ;  =  1,2) 

Es  decir,  que  si  dos  atributos  son  estadísticamente  independientes,  la  frecuencia  rela¬ 
tiva  conjunta  es  igual  al  producto  de  las  frecuencias  relativas  marginales  respectivas: 

fij  =  fi.f.j,  (i,j  =  1,2) 


Como  concepto  contrario  a  la  independencia,  tenemos  el  de  asociación  o  dependen¬ 
cia. 


Se  dice  que  dos  atributos  están  asociados  cuando  aparecen  juntos  en  más  (o  en 
menos)  ocasiones  que  las  que  cabría  esperar  si  fuesen  independientes. 

En  las  tablas  dicotómicas  la  asociación  se  suele  medir  entre  las  distintas  modalidades 
de  los  atributos. 

Para  medir  el  grado  de  asociación  entre  dos  modalidades  de  dos  atributos  existen 
distintos  coeficientes.  Nosotros  vamos  a  utilizar  el  coeficiente  de  asociación  H. 


En  la  tabla  2x2,  sabemos  que  dos  modalidades  A\  y  B i  son  independientes  si 


n  n  = 


nun,i 

N 


Por  lo  tanto,  se  puede  obtener  una  primera  medida  de  asociación  mediante  la  diferen¬ 


cia: 


H  =  nu  - 


nlmnml 

N 


Si  H=0  =>■  Los  atributos  son  independientes. 

Si  H  >  0  =>■  Existe  una  asociación  positiva. 

Si  H  <  0  =>■  Existe  una  asociación  negativa. 

Este  coeficiente  es  muy  sencillo,  pero  tiene  el  inconveniente  de  que  su  amplitud  depende 
de  los  valores  que  tomen  las  frecuencias  conjuntas,  así  que  aunque  sabremos  si  existe  o  no 
asociación,  no  podemos  determinar  si  esta  es  grande  o  pequeña. 

Ejemplo: 

De  1000  estudiantes,  516  son  hombres  y  el  resto  mujeres.  De  los  primeros,  221  son 
fumadores,  mientras  que  las  mujeres  fumadoras  son  183.  Construye  la  tabla  de  doble  en¬ 
trada  correspondiente  y  determina  si  existe  asociación  o  independencia  entre  los  atributos 
sexo  y  ser  fumador. 

Para  analizar  la  asociación  entre  «mujer»  y  «sí  es  fumador»,  utilizaremos  el  coeficiente 
de  asociación  H: 

En  primer  lugar  construimos  la  tabla: 
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Ser  fumador  ( B ) 

Bi 

B-2 

Sexo  (A) 

(Sí) 

(No) 

Total 

Ai  (mujer ) 

183 

301 

484 

A2(hombre ) 

221 

295 

516 

Total 

404 

596 

1000 

H  =  77-11  - 


ni.n.i 

N 


183- 


484  x  404 
1000 


-12.536 


Esto  significa,  que  según  las  observaciones  de  que  se  dispone,  existe  una  asociación 
negativa  entre  las  modalidades  ser  mujer  y  ser  fumadora. 

Por  lo  tanto,  sí  que  hay  asociación  entre  los  atributos. 

Nota:  calcula  el  coeficiente  en  las  demás  situaciones,  ¿qué  ocurre?,  ¿por  qué? 


Con  el  coeficiente  anterior  podemos  determinar  si  existe  o  no  asociación  entre  las 
variables  pero  no  podemos  cuantificarla. 

Si  necesitamos  cuantificar  la  relación  usaremos  una  medida  de  asociación  llamada 
Q  de  Yule,  que  se  calcula  como  sigue: 


q  _  u ii  77-22  -  n2in12 

nnn22  +  n21n12 

y  cuya  interpretación  es  la  siguiente: 

■  Si  las  variables  son  independientes:  Q=0 

■  Si  existe  asociación  positiva  (entre  di  y  Bi,  y  por  lo  tanto  entre  A2  y  B2):  Q  >  0. 

■  Si  existe  asociación  negativa  (entre  di  y  fii,  y  por  lo  tanto  entre  A2  y  B2):  Q  <  0. 

Además,  como  este  coeficiente  varía  entre  -1  y  1,  y  alcanza  estos  valores  extremos 
cuando  hay  una  asociación  perfecta,  este  coeficiente  nos  permite  medir  la  intensidad  y  la 
dirección  de  la  asociación. 

En  el  ejemplo  anterior: 


^  U11U22  —  n2íni2  183  x  295  —  221  x  301  —12536 

Q  =  ~LLJ± - =  - =  - =  -0.104 

niin22  +  n2ini2  183  x  295  +  221  x  301  120506 

Esto  nos  indica  que  hay  una  relación  negativa,  aunque  muy  pequeña,  entre  ser 
mujer  y  ser  fumadora. 


10.2.2.  Tablas  de  contingencia  h  x  k 

Estas  tablas  se  construyen  cuando  el  primer  atributo  tiene  h  modalidades  y  el  segundo 
atributo  k  modalidades. 
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Para  analizar  la  independencia  de  los  dos  atributos,  se  utiliza  el  mismo  criterio  que 
en  el  caso  anterior,  de  modo  que  los  dos  atributos  son  independientes  si: 


Vi,j  :  riij 


W'imW'mj 

N 


En  este  caso,  para  medir  el  grado  de  asociación  entre  los  atributos,  se  utilizan  los 
siguientes  coeficientes  de  contingencia: 


Coeficiente  de  contingencia  y2 


Si  denominamos  a  la  frecuencia  conjunta  observada  de  las  modalidades  Ai  del 
atributo  A  y  B3  del  atributo  B  y  por  Et]  a  la  frecuencia  teórica  que  le  correspondería 
si  fuesen  independientes  (Vi,  j  :  Ejj  =  ) ,  definimos  el  coeficiente  de  contingencia  y2 

como: 


x2  = 


EE 

2=1  j=  1 


\UÍj  Eij) 


E. 


A  este  coeficiente  se  le  denomina  también  cuadrado  de  la  contingencia. 


Este  coeficiente  es  siempre  positivo  y  si  las  variables  fuesen  independientes  su  valor 
sería  cero. 


El  coeficiente  de  contingencia  y2  se  suele  utilizar  para  contrastar  la  hipótesis  de 
independencia  entre  los  atributos. 

En  este  sentido,  se  tiene  en  cuenta  que  el  estadístico  y2,  sigue  una  distribución  Ji 
cuadrado  con  (h  —  1)  x  (k  —  1)  grados  de  libertad:  y \h-\)(k-\y 

(Al  final  del  tema,  se  indica  cómo  manejar  las  tablas  para  esta  distribución) 

Por  lo  tanto,  aceptaremos  la  independencia  de  las  variables  si  el  p- valor  es  mayor  que 
el  nivel  de  significación  (a). 

En  este  caso,  el  p- valor  es:  p  =  P{ X  >  y2,  siendo  X  ~  X2h-i)(k-i)} 

O  lo  que  es  equivalente,  se  acepta  la  independencia  si  el  valor  calculado  (y2) 
verifica: 

2  2 

X  ^  X(h— l)(fc— l),a 

siendo  a  el  nivel  de  significación. 


El  coeficiente  anterior  no  es  muy  adecuado  para  constituir  por  sí  mismo  un  coeficiente, 
dado  que  sus  límites  varían  en  función  de  los  datos,  por  ello,  Karl  Pearson  propuso  el 
siguiente  coeficiente: 

Coeficiente  de  contingencia  de  K.  Pearson: 


Este  coeficiente  varía  entre  0  y  1,  de  modo  que: 
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■  si  los  atributos  son  independientes  el  valor  de  C  es  0. 

■  cuanto  mayor  sea  el  grado  de  asociación  más  se  acerca  a  1. 


En  realidad  con  el  coeficiente  de  contingencia  de  Pearson,  el  valor  máximo,  1,  no  se 
alcanza  más  que  en  el  caso  teórico  de  infinitas  modalidades,  pero  este  coeficiente  nos 
permite  cuantificar  y  comparar  el  grado  de  asociación. 


10.3.  La  distribución  Ji  cuadrado 


La  distribución  y2,  Ji  cuadrado  de  Pearson,  es  una  distribución  de  probabilidad,  con¬ 
tinua  y  positiva  y  depende  de  un  parámetro  llamado  grados  de  libertad. 

Para  indicar  que  una  variable  aleatoria  X  sigue  una  distribución  Ji  cuadrado  con  n 
grados  de  libertad,  lo  representaremos  como:  X  ~  y2 

Como  en  otras  distribuciones  que  hemos  visto,  los  valores  más  usados  están  tabulados. 


El  manejo  de  la  tabla  de  la  Ji  cuadrado  es  análogo  al  de  la  t  de  Student.  Dados  los 
grados  de  libertad  y  la  probabilidad,  la  tabla  nos  indica  el  valor  crítico,  x,  que  deja  a  su 
derecha  dicha  probabilidad. 


P{X  >  x}~  p  -  Área  sombreada 


Ejemplo: 

a)  Determina  el  valor  crítico  y2001  (val°r  crítico  de  una  Ji  cuadrado  con  7  grados  de 
libertad  que  deja  a  su  derecha  una  probabilidad  de  0.01). 

b)  Para  una  variable  que  se  distribuye  según  una  y2  ¿cuál  es  la  probabilidad  de  que 
la  variable  tome  un  valor  mayor  que  0.584? 

Buscamos  en  la  tabla: 
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RESPUESTAS:  *7,0.01  =  18.475  y  P{X  >  0.584|X  ~  X¡}  =  0.9 


Tabla  completa  de  la  Ji  cuadrado 


6.635 

5.024 

3.84 

9.210 

7.378 

5.99 

11.345 

9.348 

7.81 

13.277 

11.143 

9.48 

15.086 

12.833 

11.07 

2.706 

2.072 

1.323 

0.455 

0.102 

0.036 

0.0 

4.605 

3.794 

2.773 

1.386 

0.575 

0.325 

0.2 

6.251 

5.317 

4.108 

2.366 

1.213 

0.798 

0.5 

7.779 

6.745 

5.385 

3.357 

1.923 

1.366 

1.0 

9.236 

8.115 

6.626 

4.351 

2.675 

1.994 

1.6 

10.645 

9.446 

7.841 

5.348 

3.455 

2.661 

2.2 

12.017 

10.748 

9.037 

6.346 

4.255 

3.358 

2.8 

13.362 

12.027 

10.219 

7.344 

5.071 

4.078 

3.4 

14.684 

13.288 

11.389 

8.343 

5.899 

4.817 

4.1 

0.003932  0.000982  0.000157 


70 

100.425 

95.023 

90.531 

85.527 

82.255 

77.577 

69.334 

75 

106.393 

100.839 

96.217 

91.061 

87.688 

82.858 

74.334 

W 

112.329 

106.629 

101.879 

96.578 

93.106 

88.130 

79.334 

>5 

118.236 

112.393 

107.522 

102.079 

98.511 

93.394 

84.334 

m 

124.116 

118.136 

113.145 

107.565 

103.904 

98.650 

89.334 

)5 

129.973 

123.858 

118.752 

113.038 

109.286 

103.899 

94.334 

Wm 

135.807 

129.561 

124.342 

118.498 

114.659 

109.141 

99.334 
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APENDICE  A.  TABLAS 


Tabla  de  la  Normal  tipificada 


P{Z  >  z\Z  ~  ÍV(0, 1)} 


z 

0.00 

0.01 

0.02 

0.03 

0.04 

0.05 

0.06 

0.07 

0.08 

0.09 

0.0 

0.5000 

0.4960 

0.4920 

0.4880 

0.4840 

0.4801 

0.4761 

0.4721 

0.4681 

0.4641 

0.1 

0.4602 

0.4562 

0.4522 

0.4483 

0.4443 

0.4404 

0.4364 

0.4325 

0.4286 

0.4247 

0.2 

0.4207 

0.4168 

0.4129 

0.4090 

0.4052 

0.4013 

0.3974 

0.3936 

0.3897 

0.3859 

0.3 

0.3821 

0.3783 

0.3745 

0.3707 

0.3669 

0.3632 

0.3594 

0.3557 

0.3520 

0.3483 

0.4 

0.3446 

0.3409 

0.3372 

0.3336 

0.3300 

0.3264 

0.3228 

0.3192 

0.3156 

0.3121 

0.5 

0.3085 

0.3050 

0.3015 

0.2981 

0.2946 

0.2912 

0.2877 

0.2843 

0.2810 

0.2776 

0.6 

0.2743 

0.2709 

0.2676 

0.2643 

0.261 1 

0.2578 

0.2546 

0.2514 

0.2483 

0.2451 

0.7 

0.2420 

0.2389 

0.2358 

0.2327 

0.2296 

0.2266 

0.2236 

0.2206 

0.2177 

0.2148 

0.8 

0.2119 

0.2090 

0.2061 

0.2033 

0.2005 

0.1977 

0.1949 

0.1922 

0.1894 

0.1867 

0.9 

0.1841 

0.1814 

0.1788 

0.1762 

0.1736 

0.1711 

0.1685 

0.1660 

0.1635 

0.1611 

1.0 

0.1587 

0.1562 

0.1539 

0.1515 

0.1492 

0.1469 

0.1446 

0.1423 

0.1401 

0.1379 

1.1 

0.1357 

0.1335 

0.1314 

0.1292 

0.1271 

0.1251 

0.1230 

0.1210 

0.1190 

0.1170 

1.2 

0.1151 

0.1131 

0.1112 

0.1093 

0.1075 

0.1056 

0.1038 

0.1020 

0.1003 

0.0985 

1.3 

0.0968 

0.0951 

0.0934 

0.0918 

0.0901 

0.0885 

0.0869 

0.0853 

0.0838 

0.0823 

1.4 

0.0808 

0.0793 

0.0778 

0.0764 

0.0749 

0.0735 

0.0721 

0.0708 

0.0694 

0.0681 

1.5 

0.0668 

0.0655 

0.0643 

0.0630 

0.0618 

0.0606 

0.0594 

0.0582 

0.0571 

0.0559 

1.6 

0.0548 

0.0537 

0.0526 

0.0516 

0.0505 

0.0495 

0.0485 

0.0475 

0.0465 

0.0455 

1.7 

0.0446 

0.0436 

0.0427 

0.0418 

0.0409 

0.0401 

0.0392 

0.0384 

0.0375 

0.0367 

1.8 

0.0359 

0.0351 

0.0344 

0.0336 

0.0329 

0.0322 

0.0314 

0.0307 

0.0301 

0.0294 

1.9 

0.0287 

0.0281 

0.0274 

0.0268 

0.0262 

0.0256 

0.0250 

0.0244 

0.0239 

0.0233 

2.0 

0.0228 

0.0222 

0.0217 

0.0212 

0.0207 

0.0202 

0.0197 

0.0192 

0.0188 

0.0183 

2.1 

0.0179 

0.0174 

0.0170 

0.0166 

0.0162 

0.0158 

0.0154 

0.0150 

0.0146 

0.0143 

2.2 

0.0139 

0.0136 

0.0132 

0.0129 

0.0125 

0.0122 

0.0119 

0.0116 

0.0113 

0.0110 

2.3 

0.0107 

0.0104 

0.0102 

0.0099 

0.0096 

0.0094 

0.0091 

0.0089 

0.0087 

0.0084 

2.4 

0.0082 

0.0080 

0.0078 

0.0075 

0.0073 

0.0071 

0.0069 

0.0068 

0.0066 

0.0064 

2.5 

0.0062 

0.0060 

0.0059 

0.0057 

0.0055 

0.0054 

0.0052 

0.0051 

0.0049 

0.0048 

2.6 

0.0047 

0.0045 

0.0044 

0.0043 

0.0041 

0.0040 

0.0039 

0.0038 

0.0037 

0.0036 

2.7 

0.0035 

0.0034 

0.0033 

0.0032 

0.0031 

0.0030 

0.0029 

0.0028 

0.0027 

0.0026 

2.8 

0.0026 

0.0025 

0.0024 

0.0023 

0.0023 

0.0022 

0.0021 

0.0021 

0.0020 

0.0019 

2.9 

0.0019 

0.0018 

0.0018 

0.0017 

0.0016 

0.0016 

0.0015 

0.0015 

0.0014 

0.0014 

z 

0.0 

0.1 

0.2 

0.3 

0.4 

0.5 

0.6 

0.7 

0.8 

0.9 

3 

0.00135 

0.0*968 

0.0*687 

0.0*483 

0.05337 

0.0*233 

0.0J159 

0.0*108 

0.0*723 

0.0*481 

4 

0.043 1 7 

0.04207 

0.04133 

0.0!854 

0.0*541 

0.0S340 

0.0!211 

0.0!130 

0.0‘793 

0.0*479 

5 

0.0‘287 

0.0*170 

0.07996 

0.02579 

0.02333 

0.07190 

0.0*107 

0.0**599 

0.0**332 

0.0'182 

6 

0.0*987 

0.0*530 

0.0*282 

0.0’ 149 

0.0"*777 

0.0'°402 

0.0'°206 

0.0'°104 

0.0"523 

0.0"260 

7 

0.0"128 

0.0,2624 

0.0I2301 

0.0I2144 

0.0**682 

0.0**320 

0.0**149 

0.0'4688 

0.0143 1 1 

0.0I4133 
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Tabla  de  t  de  Student  con  n  grados  de  libertad 


P{T  >  t  |  T  ~  tn} 


p 

n 

0.005 

0.01 

0.025 

0.05 

0.10 

0.15 

0.20 

0.25 

0.30 

0.35 

0.40 

0.45 

1 

63.6567 

31.8205 

12.7062 

6.3138 

3.0777 

1.9626 

1.3764 

1.0000 

0.7265 

0.5095 

0.3249 

0.1584 

2 

9.9248 

6.9646 

4.3027 

2.9200 

1.8856 

1.3862 

1.0607 

0.8165 

0.6172 

0.4447 

0.2887 

0.1421 

3 

5.8409 

4.5407 

3.1824 

2.3534 

1.6377 

1.2498 

0.9785 

0.7649 

0.5844 

0.4242 

0.2767 

0.1366 

4 

4.6041 

3.7469 

2.7764 

2.1318 

1.5332 

1.1896 

0.9410 

0.7407 

0.5686 

0.4142 

0.2707 

0.1338 

5 

4.0321 

3.3649 

2.5706 

2.0150 

1.4759 

1.1558 

0.9195 

0.7267 

0.5594 

0.4082 

0.2672 

0.1322 

6 

3.7074 

3.1427 

2.4469 

1.9432 

1.4398 

1.1342 

0.9057 

0.7176 

0.5534 

0.4043 

0.2648 

0.1311 

7 

3.4995 

2.9980 

2.3646 

1.8946 

1.4149 

1.1192 

0.8960 

0.7111 

0.5491 

0.4015 

0.2632 

0.1303 

8 

3.3554 

2.8965 

2.3060 

1.8595 

1.3968 

1.1081 

0.8889 

0.7064 

0.5459 

0.3995 

0.2619 

0.1297 

9 

3.2498 

2.8214 

2.2622 

1.8331 

1.3830 

1.0997 

0.8834 

0.7027 

0.5435 

0.3979 

0.2610 

0.1293 

10 

3.1693 

2.7638 

2.2281 

1.8125 

1.3722 

1.0931 

0.8791 

0.6998 

0.5415 

0.3966 

0.2602 

0.1289 

11 

3.1058 

2.7181 

2.2010 

1.7959 

1.3634 

1.0877 

0.8755 

0.6974 

0.5399 

0.3956 

0.2596 

0.1286 

12 

3.0545 

2.6810 

2.1788 

1.7823 

1.3562 

1.0832 

0.8726 

0.6955 

0.5386 

0.3947 

0.2590 

0.1283 

13 

3.0123 

2.6503 

2.1604 

1.7709 

1.3502 

1.0795 

0.8702 

0.6938 

0.5375 

0.3940 

0.2586 

0.1281 

14 

2.9768 

2.6245 

2.1448 

1.7613 

1.3450 

1.0763 

0.8681 

0.6924 

0.5366 

0.3933 

0.2582 

0.1280 

15 

2.9467 

2.6025 

2.1314 

1.7531 

1.3406 

1.0735 

0.8662 

0.6912 

0.5357 

0.3928 

0.2579 

0.1278 

16 

2.9208 

2.5835 

2.1199 

1.7459 

1.3368 

1.0711 

0.8647 

0.6901 

0.5350 

0.3923 

0.2576 

0.1277 

17 

2.8982 

2.5669 

2.1098 

1.7396 

1.3334 

1.0690 

0.8633 

0.6892 

0.5344 

0.3919 

0.2573 

0.1276 

18 

2.8784 

2.5524 

2.1009 

1.7341 

1.3304 

1.0672 

0.8620 

0.6884 

0.5338 

0.3915 

0.2571 

0.1274 

19 

2.8609 

2.5395 

2.0930 

1.7291 

1.3277 

1.0655 

0.8610 

0.6876 

0.5333 

0.3912 

0.2569 

0.1274 

20 

2.8453 

2.5280 

2.0860 

1.7247 

1.3253 

1.0640 

0.8600 

0.6870 

0.5329 

0.3909 

0.2567 

0.1273 

21 

2.8314 

2.5176 

2.0796 

1.7207 

1.3232 

1.0627 

0.8591 

0.6864 

0.5325 

0.3906 

0.2566 

0.1272 

22 

2.8188 

2.5083 

2.0739 

1.7171 

1.3212 

1.0614 

0.8583 

0.6858 

0.5321 

0.3904 

0.2564 

0.1271 

23 

2.8073 

2.4999 

2.0687 

1.7139 

1.3195 

1.0603 

0.8575 

0.6853 

0.5317 

0.3902 

0.2563 

0.1271 

24 

2.7969 

2.4922 

2.0639 

1.7109 

1.3178 

1.0593 

0.8569 

0.6848 

0.5314 

0.3900 

0.2562 

0.1270 

25 

2.7874 

2.4851 

2.0595 

1.7081 

1.3163 

1.0584 

0.8562 

0.6844 

0.5312 

0.3898 

0.2561 

0.1269 

26 

2.7787 

2.4786 

2.0555 

1.7056 

1.3150 

1.0575 

0.8557 

0.6840 

0.5309 

0.3896 

0.2560 

0.1269 

27 

2.7707 

2.4727 

2.0518 

1.7033 

1.3137 

1.0567 

0.8551 

0.6837 

0.5306 

0.3894 

0.2559 

0.1268 

28 

2.7633 

2.4671 

2.0484 

1.7011 

1.3125 

1.0560 

0.8546 

0.6834 

0.5304 

0.3893 

0.2558 

0.1268 

29 

2.7564 

2.4620 

2.0452 

1.6991 

1.3114 

1.0553 

0.8542 

0.6830 

0.5302 

0.3892 

0.2557 

0.1268 

30 

2.7500 

2.4573 

2.0423 

1.6973 

1.3104 

1.0547 

0.8538 

0.6828 

0.5300 

0.3890 

0.2556 

0.1267 

31 

2.7440 

2.4528 

2.0395 

1.6955 

1.3095 

1.0541 

0.8534 

0.6825 

0.5298 

0.3889 

0.2555 

0.1267 

32 

2.7385 

2.4487 

2.0369 

1.6939 

1.3086 

1.0535 

0.8530 

0.6822 

0.5297 

0.3888 

0.2555 

0.1267 

33 

2.7333 

2.4448 

2.0345 

1.6924 

1.3077 

1.0530 

0.8526 

0.6820 

0.5295 

0.3887 

0.2554 

0.1266 

34 

2.7284 

2.4411 

2.0322 

1.6909 

1.3070 

1.0525 

0.8523 

0.6818 

0.5294 

0.3886 

0.2553 

0.1266 

35 

2.7238 

2.4377 

2.0301 

1.6896 

1.3062 

1.0520 

0.8520 

0.6816 

0.5292 

0.3885 

0.2553 

0.1266 

36 

2.7195 

2.4345 

2.0281 

1.6883 

1.3055 

1.0516 

0.8517 

0.6814 

0.5291 

0.3884 

0.2552 

0.1266 

37 

2.7154 

2.4314 

2.0262 

1.6871 

1.3049 

1.0512 

0.8514 

0.6812 

0.5289 

0.3883 

0.2552 

0.1265 

38 

2.7116 

2.4286 

2.0244 

1.6860 

1.3042 

1.0508 

0.8512 

0.6810 

0.5288 

0.3882 

0.2551 

0.1265 

39 

2.7079 

2.4258 

2.0227 

1.6849 

1.3036 

1.0504 

0.8509 

0.6808 

0.5287 

0.3882 

0.2551 

0.1265 

40 

2.7045 

2.4233 

2.0211 

1.6839 

1.3031 

1.0500 

0.8507 

0.6807 

0.5286 

0.3881 

0.2550 

0.1265 

45 

2.6896 

2.4121 

2.0141 

1.6794 

1.3006 

1.0485 

0.8497 

0.6800 

0.5281 

0.3878 

0.2549 

0.1264 

50 

2.6778 

2.4033 

2.0086 

1.6759 

1.2987 

1.0473 

0.8489 

0.6794 

0.5278 

0.3875 

0.2547 

0.1263 

55 

2.6682 

2.3961 

2.0040 

1.6730 

1.2971 

1.0463 

0.8482 

0.6790 

0.5275 

0.3873 

0.2546 

0.1262 

60 

2.6603 

2.3901 

2.0003 

1.6706 

1.2958 

1.0455 

0.8477 

0.6786 

0.5272 

0.3872 

0.2545 

0.1262 

65 

2.6536 

2.3851 

1.9971 

1.6686 

1.2947 

1.0448 

0.8472 

0.6783 

0.5270 

0.3870 

0.2544 

0.1262 

70 

2.6479 

2.3808 

1.9944 

1.6669 

1.2938 

1.0442 

0.8468 

0.6780 

0.5268 

0.3869 

0.2543 

0.1261 

75 

2.6430 

2.3771 

1.9921 

1.6654 

1.2929 

1.0436 

0.8464 

0.6778 

0.5266 

0.3868 

0.2542 

0.1261 

80 

2.6387 

2.3739 

1.9901 

1.6641 

1.2922 

1.0432 

0.8461 

0.6776 

0.5265 

0.3867 

0.2542 

0.1261 

85 

2.6349 

2.3710 

1.9883 

1.6630 

1.2916 

1.0428 

0.8459 

0.6774 

0.5264 

0.3866 

0.2541 

0.1260 

90 

2.6316 

2.3685 

1.9867 

1.6620 

1.2910 

1.0424 

0.8456 

0.6772 

0.5263 

0.3866 

0.2541 

0.1260 

95 

2.6286 

2.3662 

1.9853 

1.6611 

1.2905 

1.0421 

0.8454 

0.6771 

0.5262 

0.3865 

0.2541 

0.1260 

100 

2.6259 

2.3642 

1.9840 

1.6602 

1.2901 

1.0418 

0.8452 

0.6770 

0.5261 

0.3864 

0.2540 

0.1260 

125 

2.6157 

2.3565 

1.9791 

1.6571 

1.2884 

1.0408 

0.8445 

0.6765 

0.5257 

0.3862 

0.2539 

0.1259 

150 

2.6090 

2.3515 

1.9759 

1.6551 

1.2872 

1.0400 

0.8440 

0.6761 

0.5255 

0.3861 

0.2538 

0.1259 

200 

2.6006 

2.3451 

1.9719 

1.6525 

1.2858 

1.0391 

0.8434 

0.6757 

0.5252 

0.3859 

0.2537 

0.1258 

300 

2.5923 

2.3388 

1.9679 

1.6499 

1.2844 

1.0382 

0.8428 

0.6753 

0.5250 

0.3857 

0.2536 

0.1258 

00 

2.5758 

2.3263 

1.9600 

1.6449 

1.2816 

1.0364 

0.8416 

0.6745 

0.5244 

0.3853 

0.2533 

0.1257 
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APENDICE  A 


Tabla  de  Ji  cuadrado  con  n  grados  de 


libertad 


P 


n 

0.01 

0.025 

0.05 

0.10 

0.15 

0.25 

0.5 

0.75 

0.85 

0.9 

0.95 

0.975 

0.99 

I 

6.635 

5.024 

3.841 

2.706 

2.072 

1.323 

0.455 

0.102 

0.036 

0.016 

0.003932 

0.000982 

0.000157 

2 

9.210 

7.378 

5.991 

4.605 

3.794 

2.773 

1.386 

0.575 

0.325 

0.211 

0.103 

0.051 

0.020 

3 

11.345 

9.348 

7.815 

6.251 

5.317 

4.108 

2.366 

1.213 

0.798 

0.584 

0.352 

0.216 

0.115 

4 

13.277 

11.143 

9.488 

7.779 

6.745 

5.385 

3.357 

1.923 

1.366 

1.064 

0.711 

0.484 

0.297 

5 

15.086 

12.833 

11.070 

9.236 

8.115 

6.626 

4.351 

2.675 

1.994 

1.610 

1.145 

0.831 

0.554 

6 

16.812 

14.449 

12.592 

10.645 

9.446 

7.841 

5.348 

3.455 

2.661 

2.204 

1.635 

1.237 

0.872 

7 

18.475 

16.013 

14.067 

12.017 

10.748 

9.037 

6.346 

4.255 

3.358 

2.833 

2.167 

1.690 

1.239 

8 

20.090 

17.535 

15.507 

13.362 

12.027 

10.219 

7.344 

5.071 

4.078 

3.490 

2.733 

2.180 

1.646 

9 

21.666 

19.023 

16.919 

14.684 

13.288 

11.389 

8.343 

5.899 

4.817 

4.168 

3.325 

2.700 

2.088 

10 

23.209 

20.483 

18.307 

15.987 

14.534 

12.549 

9.342 
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118.498 

1 14.659 

109.141 

99.334 

90.133 

85.441 

82.358 

77.929 

74.222 

70.065 

